隨著計算和數(shù)據(jù)處理變得越來越分散和復雜,AI 的重點正在從初始訓練轉向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言模型 (LLM)。本次測試采用開源 LLM 的最新版本,對 Oracle OCI 上的 Ampere 云原生處理器進行優(yōu)化,最終證明提供了前所未有的性能和靈活性。
在超過 15T 數(shù)據(jù)標記上進行訓練,Llama3 模型的訓練數(shù)據(jù)集比 Llama2 的訓練數(shù)據(jù)集大 7 倍,數(shù)據(jù)和規(guī)模均提升到了新的高度。Llama3 的開放訪問模型在語言細微差別、上下文理解以及翻譯和對話生成等復雜任務方面表現(xiàn)都很出色。作為正在進行的 Ampere llama.cpp優(yōu)化工作的延續(xù),企業(yè)現(xiàn)在可以使用基于 Ampere 的 OCI A1 形狀,體驗最先進的 Llama3 性能。
Ampere架構
Ampere 云原生處理器優(yōu)化了功耗,提供行業(yè)領先的性能、可擴展性和靈活性,幫助企業(yè)有效地處理不同的工作負載的同時,適應應用程序越來越高的要求,以及不斷增長的數(shù)據(jù)量和處理需求。通過利用云基礎設施進行水平擴展,支持處理大規(guī)模數(shù)據(jù)集并支持并發(fā)任務。通過單線程內核消除嘈雜鄰居效應、更高的內核數(shù)量提高計算密度以及降低每個計算單元的功耗從而降低整體 TCO。
Llama3 vs Llama2
隨著對可持續(xù)性和功耗的日益關注,行業(yè)正趨向于選擇更小的 AI 模型,以實現(xiàn)效率、準確性、成本和易部署性。Llama3 8B 在特定任務上可提供與 Llama2 70B 相似或更好的性能,因為它的效率和較低的過擬合風險。大型 100B LLM(例如 PaLM2、340B)或閉源模型(例如 GPT4)的計算成本可能很高,且通常不適合在資源受限的環(huán)境中進行部署。高昂的成本,以及由于其尺寸大小和處理要求的復雜,部署起來可能很麻煩,在邊緣設備上尤為明顯。Llama3 8B作為一個較小的模型,將更容易集成到各種環(huán)境中,從而能夠更廣泛地采用生成式 AI 功能。
Llama3 8B的性能
在之前成功的基礎上,Ampere AI 的工程團隊對llama.cpp進行了微調,以實現(xiàn) Ampere 云原生處理器的最佳性能?;?Ampere 的 OCI A1 實例現(xiàn)在可以為 Llama 3 提供最佳支持。這個優(yōu)化的 Llama.cpp 框架在 DockerHub 上免費提供,二進制文件可在此訪問:
在基于 Ampere 的 OCI A1 Flex 機器上進行的性能基準測試表明,即使在較大批量的情況下,Llama 3 8B 型號的功能也令人印象深刻。在單節(jié)點配置下,吞吐量高達每秒 91 個TokenTokens,推理速度凸顯了 Ampere 云原生處理器對 AI 推理的適用性。OCI 區(qū)域的廣泛可用性確保了全球用戶的可訪問性和可擴展性。
下列圖表詳細介紹了具有 64 個 OCPU 和 360 GB 內存的單節(jié)點 OCI Ampere A1 Flex 機器的關鍵性能指標,并發(fā)批量處理大小為 1-16,輸入和輸出 TokenToken大小為 128。Llama 3 8B 的性能與 Ampere A1 上的 Llama 2 7B 相當。
下圖顯示了在基于 Ampere 的 OCI A1 實例上運行的 Llama3 8B 與 AWS 上的 NVIDIA A10 GPU 的每百萬個 Token 的成本。Ampere A1 實例在批量大小為 1-8 時可節(jié)省大量成本,同時提供更流暢的用戶體驗。
Ampere的無 GPU AI 推理解決方案在小批量和低延遲應用方面處于領先地位。
每秒Token數(shù) (TPS):每秒為 LLM 推理請求生成的Token數(shù)。此度量包括首次Token的時間和Token間的延遲。以每秒生成的Token數(shù)報告。
服務器端吞吐量 (TP):此指標量化服務器在所有并發(fā)用戶請求中生成的Token總數(shù)。它提供了服務器容量和效率的匯總度量,以處理跨用戶的請求。此指標是根據(jù) TPS 報告的。
用戶側推理速度 (IS):此指標計算單個用戶請求的平均Token生成速度。它反映了服務器的響應能力,從用戶的角度來看,它提供了一定級別的推理速度。此指標是根據(jù) TPS 報告的。
實際操作
Docker鏡像可以在 DockerHub 上免費獲取,llama.aio 二進制文件可以在 Llama.aio二進制文件中免費獲取。這些圖像在大多數(shù)存儲庫(如 DockerHub、GitHub 和 Ampere Computing 的 AI 解決方案網(wǎng)頁 )上都可用。
Ampere 模型庫(AML)是由 Ampere 的 AI 工程師開發(fā)和維護的 Ampere 動物園模型庫。用戶可以訪問 AML 公共 GitHub 存儲庫,以驗證 Ampere Altra 系列云原生處理器上 Ampere 優(yōu)化的 AI 框架的卓越性能。
要簡化部署過程并測試性能,請參閱 Ampere 提供支持的 LLM 推理聊天機器人和 OCI 上的自定義市場圖像,該圖像提供用戶友好的 LLM 推理llama.cpp和 Serge UI 開源項目。這使用戶能夠在 OCI 上部署和測試 Llama 3,并體驗開箱即用的部署和即時集成。以下是 OCI 上 Ampere A1 計算的 OCI Ubuntu 22.04 市場鏡像的 UI 一瞥:
后續(xù)步驟
持續(xù)創(chuàng)新是 Ampere 一直以來的承諾,Ampere 和 Oracle 團隊正在積極致力于擴展場景支持,包括與檢索增強生成 (RAG)和 Lang 鏈功能的集成。這些增強功能將進一步提升 Llama 3 在 Ampere 云原生處理器上的能力。
如果您是現(xiàn)有的 OCI 客戶,則可以輕松啟動 AmpereA1 LLM 推理入門映像。此外,Oracle 還提供長達 3 個月的 64 個 Ampere A1 核心和 360GB 內存的免費儲值,以幫助驗證 Ampere A1 flex 形狀上的 AI 工作負載,儲值將于 2024 年 12 月 31 日結束。
在基于 Ampere 的 OCI A1 實例上推出 Ampere 優(yōu)化的 Llama 3 代表了基于 CPU 的語言模型推理的里程碑式進步,具有無與倫比的性價比、可擴展性和易于部署等優(yōu)勢。隨著我們不斷突破 AI 驅動計算的界限,我們邀請您加入我們的行列,踏上探索和發(fā)現(xiàn)的旅程。請繼續(xù)關注更多更新,我們將探索使用 Ampere 云原生處理器解鎖生成式 AI 功能的新可能性。
-
處理器
+關注
關注
68文章
19808瀏覽量
233570 -
AI
+關注
關注
87文章
34256瀏覽量
275410 -
數(shù)據(jù)集
+關注
關注
4文章
1223瀏覽量
25278 -
Ampere
+關注
關注
1文章
81瀏覽量
4666
原文標題:創(chuàng)芯課堂|使用基于 Ampere 的 OCI A1 云實例釋放 Llama3 強大功能:基于 CPU 的大型語言模型推理實驗
文章出處:【微信號:AmpereComputing,微信公眾號:安晟培半導體】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
評論