女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

當前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

后摩智能 ? 來源:后摩智能 ? 2024-09-24 16:57 ? 次閱讀

隨著大模型時代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時、高效內存管理、能耗等等。

存算一體架構是可能有效解決當前芯片瓶頸的路徑之一,通過將數據存儲與處理單元集成,顯著減少了數據在芯片內部的傳輸,降低延遲和能耗,提高計算速度。

此外,針對大模型的特定需求,芯片設計也在不斷創(chuàng)新,以更好地支持并行處理和高效率的數據流動。這些技術發(fā)展不僅對推動人工智能領域的進步至關重要,也為芯片設計和制造業(yè)帶來了新的機遇和挑戰(zhàn)。

Q1?當前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)?

1、算力需求:由于大模型計算量的提升,對算力的需求也飛速增長。考慮到芯片光罩面積的限制,一方面需要通過電路優(yōu)化提升算力密度,另一方面需要通過先進集成等手段突破芯片面積的限制。

2、高吞吐量與低延時:大模型推理分為prefill和decoding兩個階段,兩階段的推理延遲分別影響用戶得到首個token的延遲(time to first token,TTFT)和生成階段逐token的輸出延遲(time per output token,TPOT),優(yōu)化兩個階段的延遲可以提升用戶在使用推理服務時的體驗。由于prefill階段需要在單次推理處理完整的prompt輸入,是計算密集的,所以prefill階段需要通過提升芯片的算力來降低延遲。另一方面,decoding階段中,每個請求只處理一個token,是訪存密集的,因此需要提升芯片的訪存帶寬來降低延遲。

3、高效內存管理:在提供大模型推理服務時,不同用戶的請求到達時間,prompt長度,以及生成長度均不相同,所以在動態(tài)batching時不同請求間的KV Cache長度往往不同,從而導致KV Cache的碎片化問題。因此,諸如vLLM等優(yōu)化KV Cache的碎片化問題的內存管理方案被提出,從而顯著提升GPU上的內存利用率。

4、能耗:對于每個sequence的生成,decoding階段每次只處理單個token,從而導致在生成的過程中需要反復搬運權重到片上緩存,產生高訪存能耗。

5、可編程性與靈活性:隨著深度學習和人工智能領域快速發(fā)展,新的算法和模型不斷涌現。芯片應具有一定的可編程性和靈活性,以適應這些變化,不僅僅針對當前的算法進行優(yōu)化。

Q2?大模型時代的需求,存算一體芯片會是更優(yōu)解嗎?

1、存算一體的優(yōu)勢與大模型需求的契合點:CIM(Computing in Memory)具備高計算密度、高計算能效的優(yōu)勢,適合大模型Prefill階段的處理。在同樣芯片面積限制下,有望提供超過當前GPU的算力。另外,對圖片、視頻等領域生成模型,算力的需求將進一步上升,CIM高算力密度的優(yōu)勢可以進一步發(fā)揮。

2、方向一:近存路線:基于DRAM的近存計算架構能夠處理decoding階段訪存密集的矩陣向量乘法操作。通過在DRAM的bank附近放置處理單元,它們可以減少搬運權重的能耗,并且通過近bank處理單元的并行計算提升訪存帶寬,從而獲得推理加速。但是由于DRAM的工藝限制,近存處理單元的算力較弱,無法高效處理prefill階段的計算密集算子,因此往往需要與GPU配合工作,完成整個推理流程。

3、方向二:近存+存算路線:CIM+PIM的混合異構方案,可以同時滿足Prefill高算力和Decode高存儲帶寬和容量的需求,實現優(yōu)勢互補,超過當前的同構方案。

未來,隨著技術進步和創(chuàng)新設計的不斷涌現,芯片技術將進一步突破現有極限,實現更低的能耗和更高的計算性能。存算一體技術也將為芯片行業(yè)提供更多創(chuàng)新發(fā)展路徑。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48726

    瀏覽量

    246623
  • 存算一體
    +關注

    關注

    0

    文章

    106

    瀏覽量

    4594
  • 大模型
    +關注

    關注

    2

    文章

    3030

    瀏覽量

    3832

原文標題:存算十問|(十):面向大模型時代,存算一體是更優(yōu)解嗎?

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    百度文心大模型X1 Turbo獲得信通院當前模型最高評級證書

    百度在520居然還領了個證?是它, 信通院當前模型最高評級證書 ! 在5月20日的百度AI Day 上,中國信通院公布了大模型推理能力評估結果—— 百度文心大
    的頭像 發(fā)表于 05-21 18:19 ?484次閱讀
    百度文心大<b class='flag-5'>模型</b>X1 Turbo獲得信通院<b class='flag-5'>當前</b>大<b class='flag-5'>模型</b>最高評級證書

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    電子發(fā)燒友網報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據悉,該芯片預計于今年晚些時候面向 Google
    的頭像 發(fā)表于 04-12 00:57 ?2101次閱讀

    詳解 LLM 推理模型的現狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現,包括擴展推理時間計算、運用強化學習、開展監(jiān)督微調和進行提煉等。本文將深入探討
    的頭像 發(fā)表于 04-03 12:09 ?316次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現狀

    模型原生操作系統(tǒng):機遇、挑戰(zhàn)與展望 CCCF精選

    本文立足人工智能時代用戶、應用和系統(tǒng)的需求,分析“外掛式模型”演進路徑下的操作系統(tǒng)發(fā)展困局,提出通過“模型-系統(tǒng)-芯片”的全棧協(xié)同設計來構建模型
    的頭像 發(fā)表于 03-14 17:46 ?417次閱讀
    <b class='flag-5'>模型</b>原生操作系統(tǒng):機遇、<b class='flag-5'>挑戰(zhàn)</b>與展望  CCCF精選

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態(tài)大
    的頭像 發(fā)表于 02-14 15:04 ?499次閱讀

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務

    近日,摩爾線程智能科技(北京)有限責任公司在其官方渠道發(fā)布了一則重要消息,宣布公司已經成功實現了對DeepSeek蒸餾模型推理服務的部署。這一技術突破,標志著摩爾線程在人工智能領域邁出了堅實的一步
    的頭像 發(fā)表于 02-06 13:49 ?726次閱讀

    中國電提出模型推理加速新范式Falcon

    近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發(fā)表于 01-15 13:49 ?714次閱讀
    中國電<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速新范式Falcon

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?469次閱讀
    如何開啟Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

    復旦提出模型推理新思路:Two-Player架構打破自我反思瓶頸

    在 AI 領域,近期的新聞焦點無疑是關于「Scaling Law 是否撞墻?」的辯論。這一曾經被視作大模型發(fā)展的第一性原理,如今卻遭遇了挑戰(zhàn)。 ? 在這樣的背景下,研究人員開始意識到,與其單純堆砌
    的頭像 發(fā)表于 12-06 11:24 ?670次閱讀
    復旦<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>新思路:Two-Player架構打破自我反思瓶頸

    阿里云開源推理模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現了開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。 據評測數據顯示,QwQ預覽版本已具備研究生水平的科學
    的頭像 發(fā)表于 11-29 11:30 ?1027次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)
    的頭像 發(fā)表于 11-15 14:20 ?1258次閱讀
    使用vLLM+OpenVINO加速大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理綜述

    模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰(zhàn)。業(yè)內一直在努力
    的頭像 發(fā)表于 11-15 11:45 ?1309次閱讀
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>綜述

    主流芯片架構包括哪些類型

    主流芯片架構是芯片設計領域中的核心組成部分,它們決定了芯片的功能、性能、功耗等多個方面。當前,全球范圍內
    的頭像 發(fā)表于 08-22 11:08 ?2444次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大
    的頭像 發(fā)表于 07-24 11:38 ?1642次閱讀

    如何加速大語言模型推理

    的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速大語言模型推理過程,以期為相關領域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?951次閱讀