女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于CPU的大型語言模型推理實驗

安晟培半導體 ? 來源:安晟培半導體 ? 2024-07-18 14:28 ? 次閱讀

隨著計算和數(shù)據(jù)處理變得越來越分散和復雜,AI 的重點正在從初始訓練轉向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型 (LLM)。本次測試采用開源 LLM 的最新版本,對 Oracle OCI 上的 Ampere 云原生處理器進行優(yōu)化,最終證明提供了前所未有的性能和靈活性。

在超過 15T 數(shù)據(jù)標記上進行訓練,Llama3 模型的訓練數(shù)據(jù)集比 Llama2 的訓練數(shù)據(jù)集大 7 倍,數(shù)據(jù)和規(guī)模均提升到了新的高度。Llama3 的開放訪問模型在語言細微差別、上下文理解以及翻譯和對話生成等復雜任務方面表現(xiàn)都很出色。作為正在進行的 Ampere llama.cpp優(yōu)化工作的延續(xù),企業(yè)現(xiàn)在可以使用基于 Ampere 的 OCI A1 形狀,體驗最先進的 Llama3 性能。

Ampere架構

Ampere 云原生處理器優(yōu)化了功耗,提供行業(yè)領先的性能、可擴展性和靈活性,幫助企業(yè)有效地處理不同的工作負載的同時,適應應用程序越來越高的要求,以及不斷增長的數(shù)據(jù)量和處理需求。通過利用云基礎設施進行水平擴展,支持處理大規(guī)模數(shù)據(jù)集并支持并發(fā)任務。通過單線程內核消除嘈雜鄰居效應、更高的內核數(shù)量提高計算密度以及降低每個計算單元的功耗從而降低整體 TCO。

Llama3 vs Llama2

隨著對可持續(xù)性和功耗的日益關注,行業(yè)正趨向于選擇更小的 AI 模型,以實現(xiàn)效率、準確性、成本和易部署性。Llama3 8B 在特定任務上可提供與 Llama2 70B 相似或更好的性能,因為它的效率和較低的過擬合風險。大型 100B LLM(例如 PaLM2、340B)或閉源模型(例如 GPT4)的計算成本可能很高,且通常不適合在資源受限的環(huán)境中進行部署。高昂的成本,以及由于其尺寸大小和處理要求的復雜,部署起來可能很麻煩,在邊緣設備上尤為明顯。Llama3 8B作為一個較小的模型,將更容易集成到各種環(huán)境中,從而能夠更廣泛地采用生成式 AI 功能。

Llama3 8B的性能

在之前成功的基礎上,Ampere AI 的工程團隊對llama.cpp進行了微調,以實現(xiàn) Ampere 云原生處理器的最佳性能?;?Ampere 的 OCI A1 實例現(xiàn)在可以為 Llama 3 提供最佳支持。這個優(yōu)化的 Llama.cpp 框架在 DockerHub 上免費提供,二進制文件可在此訪問:

在基于 Ampere 的 OCI A1 Flex 機器上進行的性能基準測試表明,即使在較大批量的情況下,Llama 3 8B 型號的功能也令人印象深刻。在單節(jié)點配置下,吞吐量高達每秒 91 個TokenTokens,推理速度凸顯了 Ampere 云原生處理器對 AI 推理的適用性。OCI 區(qū)域的廣泛可用性確保了全球用戶的可訪問性和可擴展性。

下列圖表詳細介紹了具有 64 個 OCPU 和 360 GB 內存的單節(jié)點 OCI Ampere A1 Flex 機器的關鍵性能指標,并發(fā)批量處理大小為 1-16,輸入和輸出 TokenToken大小為 128。Llama 3 8B 的性能與 Ampere A1 上的 Llama 2 7B 相當。

5a7823b4-44bb-11ef-b8af-92fbcf53809c.png

下圖顯示了在基于 Ampere 的 OCI A1 實例上運行的 Llama3 8B 與 AWS 上的 NVIDIA A10 GPU 的每百萬個 Token 的成本。Ampere A1 實例在批量大小為 1-8 時可節(jié)省大量成本,同時提供更流暢的用戶體驗。

5a967f30-44bb-11ef-b8af-92fbcf53809c.png

Ampere的無 GPU AI 推理解決方案在小批量和低延遲應用方面處于領先地位。


每秒Token數(shù) (TPS):每秒為 LLM 推理請求生成的Token數(shù)。此度量包括首次Token的時間和Token間的延遲。以每秒生成的Token數(shù)報告。

服務器端吞吐量 (TP):此指標量化服務器在所有并發(fā)用戶請求中生成的Token總數(shù)。它提供了服務器容量和效率的匯總度量,以處理跨用戶的請求。此指標是根據(jù) TPS 報告的。

用戶側推理速度 (IS):此指標計算單個用戶請求的平均Token生成速度。它反映了服務器的響應能力,從用戶的角度來看,它提供了一定級別的推理速度。此指標是根據(jù) TPS 報告的。

實際操作

Docker鏡像可以在 DockerHub 上免費獲取,llama.aio 二進制文件可以在 Llama.aio二進制文件中免費獲取。這些圖像在大多數(shù)存儲庫(如 DockerHub、GitHub 和 Ampere Computing 的 AI 解決方案網(wǎng)頁 )上都可用。

Ampere 模型庫(AML)是由 Ampere 的 AI 工程師開發(fā)和維護的 Ampere 動物園模型庫。用戶可以訪問 AML 公共 GitHub 存儲庫,以驗證 Ampere Altra 系列云原生處理器上 Ampere 優(yōu)化的 AI 框架的卓越性能。

要簡化部署過程并測試性能,請參閱 Ampere 提供支持的 LLM 推理聊天機器人和 OCI 上的自定義市場圖像,該圖像提供用戶友好的 LLM 推理llama.cpp和 Serge UI 開源項目。這使用戶能夠在 OCI 上部署和測試 Llama 3,并體驗開箱即用的部署和即時集成。以下是 OCI 上 Ampere A1 計算的 OCI Ubuntu 22.04 市場鏡像的 UI 一瞥:

5ab5ba80-44bb-11ef-b8af-92fbcf53809c.jpg

后續(xù)步驟

持續(xù)創(chuàng)新是 Ampere 一直以來的承諾,Ampere 和 Oracle 團隊正在積極致力于擴展場景支持,包括與檢索增強生成 (RAG)和 Lang 鏈功能的集成。這些增強功能將進一步提升 Llama 3 在 Ampere 云原生處理器上的能力。

如果您是現(xiàn)有的 OCI 客戶,則可以輕松啟動 AmpereA1 LLM 推理入門映像。此外,Oracle 還提供長達 3 個月的 64 個 Ampere A1 核心和 360GB 內存的免費儲值,以幫助驗證 Ampere A1 flex 形狀上的 AI 工作負載,儲值將于 2024 年 12 月 31 日結束。

在基于 Ampere 的 OCI A1 實例上推出 Ampere 優(yōu)化的 Llama 3 代表了基于 CPU 的語言模型推理的里程碑式進步,具有無與倫比的性價比、可擴展性和易于部署等優(yōu)勢。隨著我們不斷突破 AI 驅動計算的界限,我們邀請您加入我們的行列,踏上探索和發(fā)現(xiàn)的旅程。請繼續(xù)關注更多更新,我們將探索使用 Ampere 云原生處理器解鎖生成式 AI 功能的新可能性。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19808

    瀏覽量

    233570
  • AI
    AI
    +關注

    關注

    87

    文章

    34256

    瀏覽量

    275410
  • 數(shù)據(jù)集

    關注

    4

    文章

    1223

    瀏覽量

    25278
  • Ampere
    +關注

    關注

    1

    文章

    81

    瀏覽量

    4666

原文標題:創(chuàng)芯課堂|使用基于 Ampere 的 OCI A1 云實例釋放 Llama3 強大功能:基于 CPU 的大型語言模型推理實驗

文章出處:【微信號:AmpereComputing,微信公眾號:安晟培半導體】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs在語言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個全新的邏輯推理評估
    的頭像 發(fā)表于 11-23 15:05 ?1402次閱讀
    <b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>的邏輯<b class='flag-5'>推理</b>能力探究

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本,為故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面,其計算資源需求巨大,訓練和推理耗時;另一方面,模型高度依賴數(shù)據(jù),需要大
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的評測

    在知識獲取、邏輯推理、代碼生成等方面的能力。這些評測基準包括語言建模能力、綜合知識能力、數(shù)學計算能力、代碼能力和垂直領域等多個維度。對于微調模型,對話能力的評測關注模型在對話任務中的全
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的應用

    ,它通過抽象思考和邏輯推理,協(xié)助我們應對復雜的決策。 相應地,我們設計了兩類任務來檢驗大語言模型的能力。一類是感性的、無需理性能力的任務,類似于人類的系統(tǒng)1,如情感分析和抽取式問答等。大
    發(fā)表于 05-07 17:21

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設備 AI 模型推理的功能,目前已經在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    大型語言模型有哪些用途?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下,可
    的頭像 發(fā)表于 02-23 19:50 ?5559次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。
    的頭像 發(fā)表于 03-08 13:57 ?8548次閱讀

    利用大語言模型做多模態(tài)任務

    大型語言模型LLM(Large Language Model)具有很強的通用知識理解以及較強的邏輯推理能力,但其只能處理文本數(shù)據(jù)。
    的頭像 發(fā)表于 05-10 16:53 ?1328次閱讀
    利用大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>做多模態(tài)任務

    基于Transformer的大型語言模型(LLM)的內部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。 隨著大型語言
    的頭像 發(fā)表于 06-25 15:08 ?1825次閱讀
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)的內部機制

    大型語言模型的應用

    ?? 大型語言模型(LLM) 是一種深度學習算法,可以通過大規(guī)模數(shù)據(jù)集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型(LL
    的頭像 發(fā)表于 07-05 10:27 ?2391次閱讀

    如何加速大語言模型推理

    的主要挑戰(zhàn)。本文將從多個維度深入探討如何加速大語言模型推理過程,以期為相關領域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?947次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務
    的頭像 發(fā)表于 07-24 11:38 ?1636次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1255次閱讀
    使用vLLM+OpenVINO加速大<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?463次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴展
    的頭像 發(fā)表于 04-03 12:09 ?308次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現(xiàn)狀