芯東西(公眾號:aichip001)
作者 ZeR0
編輯 漠影
芯東西5月8日報道,今日,Imagination Technologies推出兼顧邊緣AI計算和圖形渲染需求的全新E系列GPU IP。E系列(E-Series)憑借其高效的并行處理架構,INT8/FP8算力可在2到200 TOPS之間擴展,為邊緣應用提供了一種通用且可編程的解決方案。
該GPU IP適用于圖形渲染、桌面應用、智能手機上的自然語言處理、工業計算機視覺以及自動駕駛等領域。首款E系列GPU IP將于2025年秋季正式上市,目前已完成授權。汽車、消費電子、桌面及移動版本亦在同步開發中。
Imagination的PowerVR GPU架構以能效著稱,已在功耗受限設備中應用近二十年。E系列進一步引入全新的爆發式處理器(Burst Processors) 技術,在AI推理、游戲和用戶界面等工作負載下平均功耗效率再提升35%。
Imagination創新與工程負責人Tim Mamtora談道:“E系列將GPU放在圖形與邊緣AI系統的核心位置。對需要同時運行圖形與計算任務的系統設計者而言,E系列GPU提供了一種高度靈活的解決方案,既無需依賴額外的向量處理器或固定功能AI加速器,又能在降低整體系統設計成本的同時,實現面向未來的可擴展性?!?/p>
在媒體溝通會上,Imagination中國區董事長兼亞太總裁白農告訴芯東西等媒體,這款新產品是Imagination在圖形和計算領域多年來累積的又一個里程碑,它不僅在性能、功耗和面積方面實現了全面的優化,更在架構設計上實現了從傳統渲染將通用計算的深度拓展,具備高度的靈活性和可擴展性。
“中國一直是我們全球最重要的戰略市場之一,”白農談道,“未來,我們將持續加大對中國市場的投入,不僅為加大本土技術支持團隊的建設,還將升華與本土生態伙伴的合作,幫助客戶抓住新一輪AI浪潮帶來的市場機遇?!?/p>
一、兩大核心創新,AI算力可擴展至200TOPS
Imagination E系列GPU IP的每個GPU核深度集成低精度、高能效AI加速能力。小核在1GHz頻率下有8Gpixel/s的像素填充率、0.25TFLOPS浮點算力、2TOPS INT8算力,可滿足輕量級應用需求。4核配置在1.6GHz頻率下可提供400Gpixel/s的像素填充率、12.8TFLOPS浮點算力(FP32)、超過200TOPS的INT8算力。
E系列有兩項核心創新:Neural Cores(神經核)與Burst Processors(爆發式處理器)。
神經核計算密度高,AI性能可擴展至200 TOPS INT8 ,較前代D系列提升高達400%。它支持FP32、FP16、BF16、INT8、FP8、MXFP8、FP4、MXFP4等多種主流AI數值格式,能夠滿足不同精度、性能與功耗需求。其AI友好的內存架構在計算時優先使用本地內存,大幅降低了訪問外部內存所消耗的功耗和性能成本。
爆發式處理器擁有創新的架構設計,使邊緣應用中平均功耗效率提升35%。該技術深度集成于GPU中,改變了GPU原有指令調度方式,通過縮短流水線深度、減少數據在GPU內部的移動等方式,實現盡可能多的數據重復使用和共享,從而減少很多不必要的計算開銷,提升能效。
爆發式處理器主要優勢包括:對特定指令進行調度,最小化控制器開銷,不會犧牲很多的延遲;重新設計ALU流水線,對流水線級數做縮減,實現了更高效的利用率,從而降低整體延遲和功耗;大量重復利用來自本地存儲的數據,這也給功耗降低提供助力。
E系列GPU上的創新建立在原有硬件資源的基礎上,并不會顯著增加芯片的面積,還可以對能效進行持續改進。
例如其一項重要架構設計是在每一個計算單元都有將近0.5Mb的寄存器空間,能在芯片上高效保留需處理的數據。這些資源是GPU進行圖形處理時就存在的,現在又增加了AI相關的高效處理流水線,本質上沒有額外增加芯片面積。
圖形處理和其他計算之間的靈活性取決于兩者之間的負載平衡,而Imagination實現了一種具有高靈活性的解決方案,可以對幾何像素和傳統計算進行負載平衡,還有基于優先級的一些MCU調度機制。另一個優勢是,GPU需要對多種不同紋理類型格式進行處理,本身就支持非常廣泛的數據類型,如今又拓展了數據轉換流水線來支持AI數據類型。
二、軟硬件充分協同,在GPU上可編程地開發AI模型
GPU作為可編程處理器,通過面向未來的架構設計,使設備能夠持續應對AI、計算和圖形工作負載的演進。
E系列延續了Imagination GPU的出色圖形處理能力,支持光線追蹤。通過在GPU內部深度集成AI加速能力,其神經核與更廣泛的GPU及異構計算軟件生態實現無縫協同,有助于降低開發門檻。
Imagination也投入了大量的時間和工程資源,在更底層上確保認不同的AI工具和接口能夠與其硬件形成一種經優化的配合流程。
E系列GPU IP的算力可通過OpenCL等主流API直接調用,開發者借助oneAPI、Apache TVM或LiteRT等開放標準工具,能輕松將工作負載遷移至神經核。Imagination的計算庫與高度優化的圖形編譯器,可提高硬件利用率,進一步釋放GPU的潛能。
當代設備日益復雜,處理器需同時支持圖形與AI多項工作負載。為保障用戶體驗,實現高質量服務(QoS)和清晰劃分任務優先級至關重要。E系列在前代產品的多任務處理能力基礎上實現了增強,將Imagination GPU支持的、具備硬件加速且零開銷的虛擬機數量從8個翻倍至16個,并提供了先進的QoS支持。
E系列GPU IP的多核版本可利用額外的核心來提升性能或增強靈活性。這些GPU能夠同時處理多種圖形工作負載、多種AI工作負載,或圖形與AI工作負載的組合。
結語:可集成到各類SoC設計中,在任意設備上靈活部署新算法
IDC研究總監Phil Solis認為:“各類設備上的AI功能正在迅速演進,但AI系統設計者依然面臨性能、效率與靈活性的多重挑戰。Imagination憑借其長期深耕低功耗GPU的經驗,成功實現了GPU架構對圖形與AI的靈活支持。E系列結合了GPU的可編程性與AI性能的飛躍,為邊緣AI系統開發者帶來了極具吸引力的解決方案。”
在行業分析師看來,要實現終端智能的真正潛力,邊緣AI的軟硬件必須協同演進。E系列便做到了各類開發者都能在任意設備上靈活部署最新算法。
由于Imagination提供的是一個軟IP解決方案,客戶可將其GPU IP集成到幾乎任何種類的SoC設計中。無論是想要開發用于智能手機或者其他系統的傳統SoC芯片,還是打造帶有自家顯存控制和PCIe總線的獨立GPU芯片、然后把它設計成一塊完整顯卡,都可以通過選用Imagination IP解決方案來實現。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.