仁科百华AV片在线观看,五福影院AV在线,精品在线视频福利

今年年初，開源大語言模型 (LLM) DeepSeek 在國內(nèi)外人工智能 (AI) LLM 領(lǐng)域掀起熱議。它在模型架構(gòu)和訓(xùn)練、推理方法上實(shí)現(xiàn)創(chuàng)新，在性能和工程效率上帶來了顯著提升，并在成本效率方面頗具優(yōu)勢(shì)。Arm 攜手合作伙伴，在 Arm Neoverse N2 平臺(tái)上使用開源推理框架 llama.cpp 實(shí)現(xiàn) DeepSeek-R1 滿血版的部署，目前已可提供線上服務(wù)。

在基于 Neoverse N2 平臺(tái)設(shè)計(jì)的服務(wù)器級(jí) CPU 上，通過對(duì)軟硬件架構(gòu)的合理適配，以及出色調(diào)優(yōu)來充分發(fā)揮平臺(tái)的計(jì)算能力和內(nèi)存帶寬，能夠以 INT8 的量化版本提供業(yè)界可用的詞元 (token) 生成速度，并以更具競(jìng)爭力的性價(jià)比為中小微企業(yè)提供業(yè)界頂尖的 LLM 服務(wù)。

在部署 DeepSeek 大模型過程中，Arm 結(jié)合底層架構(gòu)特性進(jìn)行了深度優(yōu)化：模型本身跨多 ?NUMA（非統(tǒng)一內(nèi)存訪問）節(jié)點(diǎn)以交錯(cuò) (interleave) 方式加載，以便充分利用所有內(nèi)存帶寬；除 INT8 量化外，通過開啟 KV 量化，以及激活 Flash Attention 機(jī)制，以此進(jìn)一步降低計(jì)算量和壓縮內(nèi)存占用。通過技術(shù)團(tuán)隊(duì)的努力，DeepSeek 滿血版的整體性能相較優(yōu)化前提升了 67%。工程團(tuán)隊(duì)后續(xù)也會(huì)持續(xù)投入，提高多節(jié)點(diǎn)上的計(jì)算并發(fā)度及帶寬利用率，并通過開發(fā)者社區(qū)不斷完善 Arm 架構(gòu)的軟件生態(tài)。

細(xì)究 DeepSeek 的模型架構(gòu)創(chuàng)新，它針對(duì)大模型運(yùn)行時(shí)的痛點(diǎn)進(jìn)行計(jì)算、內(nèi)存訪問和算法流水線上的效率提升，比如 MLA 和 FP8 訓(xùn)練和推理減少了內(nèi)存占用和帶寬需求，DeepSeekMoE 降低了計(jì)算強(qiáng)度、提高計(jì)算效率，DualPipe 提高了多計(jì)算節(jié)點(diǎn)間的通信和計(jì)算效率。這些工程優(yōu)化思維與 Arm 一貫倡導(dǎo)的高能效設(shè)計(jì)目標(biāo)不謀而合，也使得在純 CPU 平臺(tái)上運(yùn)行如此大規(guī)模的模型成為可能。

Arm 平臺(tái)致力于助力合作伙伴提高性能，并降低總體擁有成本 (TCO)，在 Neoverse N2 平臺(tái)運(yùn)行 DeepSeek 大模型推理也淋漓盡致地體現(xiàn)了這一原則。在為中小微企業(yè)提供大模型服務(wù)時(shí)，并發(fā)需求降低，成本敏感度提高。在基于 Neoverse N2 平臺(tái)上運(yùn)行的 DeepSeek-R1 為他們提供了一個(gè)更為均衡的選擇。相較傳統(tǒng)多卡 GPU/加速器平臺(tái)，這能極大地降低訂閱服務(wù)成本，使用戶能以較低代價(jià)快速啟動(dòng)業(yè)務(wù)部署。下圖是兩種方案訂閱服務(wù)的價(jià)格對(duì)比：

搭載 Neoverse N2 平臺(tái)的服務(wù)器平臺(tái)能把部署成本降低約八倍。此外，對(duì)數(shù)據(jù)中心來說，在 CPU 上部署 LLM 也能充分利用在線的空閑算力，提高整體資源利用率。與此同時(shí)，基于 Neoverse N2 平臺(tái)的服務(wù)器功耗僅為傳統(tǒng)八卡 GPU 服務(wù)器的 1/12，能極大地降低數(shù)據(jù)中心的能耗壓力。

如此大規(guī)模的模型（6,710億參數(shù)）能夠在數(shù)據(jù)中心服務(wù)器級(jí) CPU 上運(yùn)行，并迅速上線為客戶提供快速部署，得益于 Neoverse 平臺(tái)對(duì) AI 推理負(fù)載的一貫思考和設(shè)計(jì)，包括 2 x 128 位的可伸縮向量擴(kuò)展 (SVE2) 特性、BF16/INT8 數(shù)據(jù)格式支持，以及點(diǎn)積和矩陣乘法等指令的支持，加之多通道高帶寬內(nèi)存配置，和低延遲 CMN 互聯(lián)等等。

隨著 AI 領(lǐng)域的飛速發(fā)展，LLM 在持續(xù)的工程創(chuàng)新和優(yōu)化之下應(yīng)用領(lǐng)域不斷變廣。Arm 將持續(xù)通過 Neoverse 平臺(tái)為行業(yè)賦能，并在這一新的技術(shù)紀(jì)元中引領(lǐng)變革。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴