Imagination Technologies 宣布率先完成百度文心大模型(ERNIE 4.5 開源版)在其 GPU 硬件上的端側(cè)部署。適配完成后,開發(fā)者可在搭載 Imagination GPU 的設(shè)備上實現(xiàn)高效本地 AI 推理,同時大幅降低推理成本,這一成果也標(biāo)志著 Imagination GPU 在端側(cè) AI 推理場景中的技術(shù)領(lǐng)先性。
Imagination高度優(yōu)化軟件棧實現(xiàn)高效本地AI推理、降低成本
本次適配的文心4.5模型為開源版本,具備強大的智能問答、文本生成、語義理解和知識推理能力,廣泛適用于移動設(shè)備、語音助手、IoT和教育硬件等資源受限終端。在飛槳框架支持下,Imagination GPU平臺展現(xiàn)出出色的推理性能。
Imagination基于現(xiàn)有的GPU硬件順利完成了本次文心大模型系列開源模型部署軟件棧,并得到實際網(wǎng)絡(luò)驗證。同時,Imagination高度優(yōu)化的計算軟件棧對AI本地推理性能進行優(yōu)化,該軟件棧包含OpenCL計算庫,編譯器工具鏈,主流編程框架的參考開發(fā)套件(Reference Kits)。
其中參考開發(fā)套件可協(xié)助開發(fā)者通過TVM將主流AI框架中的代碼遷移至Imagination的軟件棧。該套件基于Imagination優(yōu)化的OpenCL計算庫和圖編譯器,使用專屬API調(diào)用,提供全面的文檔說明和組件集成參考,便于客戶將其高效融入自身開發(fā)流程。
Imagination與百度協(xié)同創(chuàng)新,加速大模型端側(cè)普及
適配過程中,Imagination與百度團隊緊密合作,針對文心4.5的特點進行了優(yōu)化。推理方面,百度文心提出了多專家并行協(xié)同量化方法和卷積編碼量化算法,實現(xiàn)了效果接近無損的4-bit量化和2-bit量化。此外,還實現(xiàn)了動態(tài)角色轉(zhuǎn)換的預(yù)填充、解碼分離部署技術(shù),可以更充分地利用資源,提升文心4.5 MoE模型的推理性能。基于飛槳框架,文心4.5在Imagination GPU硬件平臺上表現(xiàn)出優(yōu)異的推理性能。
Imagination在今年5月推出了面向邊緣AI的E 系列 GPU,具備高性能、低功耗和靈活可編程的特點,適用于自然語言處理、工業(yè)計算機視覺、自動駕駛等應(yīng)用。此次與文心模型的成功適配,也為未來客戶在采用E系列GPU構(gòu)建本地AI應(yīng)用奠定了堅實基礎(chǔ)。
早在此前,Imagination加由入百度飛槳發(fā)起的 “硬件生態(tài)共創(chuàng)計劃”,將飛槳的先進算法和靈活性與 Imagination IP 技術(shù)相結(jié)合,為端側(cè)開發(fā)者提供強大支持。隨著邊緣計算需求的快速增長,Imagination將繼續(xù)與百度深入合作,推動大模型在端側(cè)設(shè)備的普及與落地,共同打造更高效、智能的本地AI體驗。
-
gpu
+關(guān)注
關(guān)注
28文章
4944瀏覽量
131218 -
AI
+關(guān)注
關(guān)注
88文章
35109瀏覽量
279598 -
imagination
+關(guān)注
關(guān)注
1文章
599瀏覽量
62216 -
大模型
+關(guān)注
關(guān)注
2文章
3139瀏覽量
4062
發(fā)布評論請先 登錄
寧暢與與百度文心大模型展開深度技術(shù)合作
兆芯率先展開文心系列模型深度技術(shù)合作
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態(tài)
MediaTek天璣9400率先完成阿里Qwen3模型部署
摩爾線程GPU率先支持Qwen3全系列模型
AI端側(cè)部署案例(SC171開發(fā)套件V3)
AI端側(cè)部署開發(fā)(SC171開發(fā)套件V3)
AI大模型端側(cè)部署正當(dāng)時:移遠(yuǎn)端側(cè)AI大模型解決方案,激活場景智能新范式

AI大模型端側(cè)部署正當(dāng)時:移遠(yuǎn)端側(cè)AI大模型解決方案,激活場景智能新范式

暢享DeepSeek自由,憶聯(lián)高性能CSSD為端側(cè)大模型加速

紹興數(shù)據(jù)局率先實現(xiàn)政務(wù)環(huán)境下的DeepSeek模型部署

評論