女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Hold住千億參數大模型,Gaudi?2 有何優勢

英特爾中國 ? 來源:未知 ? 2023-09-15 19:30 ? 次閱讀

近日在北京舉行的2023年中國國際服務貿易交易會(下文簡稱:服貿會)上,作為英特爾人工智能產品組合的重要成員,Habana Gaudi2實力亮相,它在海內外諸多大語言模型(Large Language Model,下文簡稱:LLM)的加速上,已展現了出眾實力,成為業界焦點。

AI技術飛速發展,LLM風起云涌,但由于AI模型尤其是LLM的訓練與推理需要消耗大量資源和成本,在生產環境部署和使用這些模型變得極具挑戰。如何提升性能降低開銷,使AI技術更快普及,是行業內共同關注的話題。

wKgZomUEQWiAP6hmAAH7mC8BB3E152.jpg

專為加速LLM的訓練和推理設計

Habana Gaudi2 正是專為高性能、高效率大規模深度學習任務而設計的AI加速器,具備24個可編程Tensor處理器核心(TPCs)、21個100Gbps(RoCEv2)以太網接口、96GB HBM2E內存容量、2.4TB/秒的總內存帶寬、48MB片上SRAM,并集成多媒體處理引擎。該加速器能夠通過性能更高的計算架構、更先進的內存技術和集成RDMA實現縱向擴展,為中國用戶提供更高的深度學習效率與更優性價比。Gaudi2 的計算速度十分出色,它的架構能讓加速器并行執行通用矩陣乘法 (GeMM) 和其他運算,從而加快深度學習工作流。這些特性使 Gaudi2 成為 LLM 訓練和推理的理想選擇,亦將成為大規模部署AI的更優解。

wKgZomUEQWiAD_IvAAHwyqm3CR4823.jpg

在服貿會上,英特爾展示了Habana Gaudi2 對ChatGLM2-6B的加速能力。ChatGLM2-6B是開源中英雙語對話模型ChatGLM-6B的第二代版本,加強了初代模型對話流暢等優質特性。得益于專為深度學習設計的架構,Habana Gaudi2 可以靈活地滿足單節點、多節點的大規模分布式大語言模型訓練,在ChatGLM2-6B上,能夠支持更長的上下文,并帶來極速對話體驗。

在千億參數大模型上大顯身手

實際上,Habana Gaudi2 的卓越性能早已嶄露頭角。在今年6月公布的MLCommonsMLPerf基準測試中,Gaudi2在GPT-3模型、計算機視覺模型ResNet-50(使用8個加速器)、Unet3D(使用8個加速器),以及自然語言處理模型BERT(使用8個和64個加速器)上均取得了優異結果。近日,MLCommons又繼續公布了針對60億參數大語言模型及計算機視覺與自然語言處理模型GPT-J的MLPerf推理v3.1性能基準測試結果,其中包括基于Habana Gaudi2加速器、第四代英特爾至強可擴展處理器,以及英特爾至強CPU Max系列的測試結果。

數據顯示,Habana Gaudi2在GPT-J-99 和GPT-J-99.9 上的服務器查詢和離線樣本的推理性能分別為78.58 次/秒和84.08 次/秒。該測試采用 FP8數據類型,并在這種新數據類型上達到了 99.9% 的準確率,這無疑再一次印證了Gaudi2的出色性能。此外,基于第四代英特爾至強可擴展處理器的7個推理基準測試也顯示出其對于通用AI工作負載的出色性能。截至目前,英特爾仍是唯一一家使用行業標準的深度學習生態系統軟件提交公開CPU結果的廠商。

另一個讓Habana Gaudi2 大顯身手的模型是BLOOMZ。BLOOM是一個擁有 1760 億參數的自回歸模型,訓練后可用于生成文本序列,它可以處理 46 種語言和 13 種編程語言,而BLOOMZ是與BLOOM架構完全相同的模型,它是BLOOM基于多個任務的調優版本。Habana與著名AI平臺Hugging Face合作進行了 Gaudi2 在BLOOMZ模型上的基準測試1。如圖1所示,對于參數量達1760億的模型 BLOOMZ(BLOOMZ-176B),Gaudi2性能表現出色,時延僅為約3.7 秒;對于參數量為 70 億的較小模型 BLOOMZ-7B,Gaudi2 的時延優勢更加顯著,單設備約為第一代 Gaudi 的37.21%,而當設備數量都增加為8后,這一百分比進一步下降至約24.33%。

wKgZomUEQWiAHiZiAAFknVTYkmY555.png

圖 1. BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的推理時延測試結果

此外,在Meta發布的開源大模型Llama 2上,Gaudi2的表現依然出眾。圖2顯示了70億參數和130億參數兩種Llama 2模型的推理性能。模型分別在一臺Habana Gaudi2設備上運行,batch size=1,輸出token長度256,輸入token長度不定,使用BF16精度。報告的性能指標為每個token的延遲(不含第一個)。對于128至2000輸入token,在70億參數模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒,而對于130億參數模型,范圍為每token 15.5-20.4毫秒2

wKgZomUEQWmAKhF5AAGHaOrFSeA987.png

圖 2.基于HabanaGaudi2,70億和130億參數Llama 2模型的推理性能

值得一提的是,Habana 的SynapseAI 軟件套件在模型部署和優化的過程中起到了至關重要的作用。SynapseAI 軟件套件不僅支持使用 PyTorch 和 DeepSpeed 來加速LLM的訓練和推理,還支持 HPU Graph和DeepSpeed-inference,這兩者都非常適合時延敏感型應用。因此,在Habana Gaudi2上部署模型非常簡單,尤其是對LLM等數十億以上參數的模型推理具有較優的速度優勢,且無需編寫復雜的腳本。

LLM的成功堪稱史無前例。有人說,LLM讓AI技術朝著通用人工智能(AGI)的方向邁進了一大步,而因此面臨的算力挑戰也催生了更多技術的創新。Habana Gaudi2 正是在這一背景下應運而生,以其強大的性能和性價比優勢加速深度學習工作負載。Habana Gaudi2的出色表現更進一步顯示了英特爾AI產品組合的競爭優勢,以及英特爾對加速從云到網絡到邊緣再到端的工作負載中大規模部署AI的承諾。英特爾將持續引領產品技術創新,豐富和優化包括英特爾 至強 可擴展處理器、英特爾 數據中心GPU等在內的AI產品組合,助力中國本地AI市場發展。

參考資料:

1.https://huggingface.co/blog/zh/habana-gaudi-2-bloom

2.Habana Gaudi2深度學習加速器:所有測量使用了一臺HLS2 Gaudi2服務器上的Habana SynapseAI 1.10版和optimum-habana 1.6版,該服務器具有八個Habana Gaudi2 HL-225H Mezzanine卡和兩個英特爾 至強 白金8380 [email protected]以及1TB系統內存。2023年7月進行測量。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10168

    瀏覽量

    173937
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11037

    瀏覽量

    216020

原文標題:Hold住千億參數大模型,Gaudi?2 有何優勢

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    ON Semiconductor MC14013BDTR2G 雙D型觸發器參數特性 EDA模型 數據手冊

    ON Semiconductor MC14013BDTR2G 雙D型觸發器參數特性 EDA模型 數據手冊
    的頭像 發表于 05-29 14:41 ?102次閱讀
    ON Semiconductor MC14013BDTR<b class='flag-5'>2</b>G  雙D型觸發器<b class='flag-5'>參數</b>特性 EDA<b class='flag-5'>模型</b> 數據手冊

    英特爾Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    近日,DeepSeek公司發布了備受矚目的Janus Pro模型,其憑借超強性能和高精度在業界引發了廣泛關注。為了進一步提升該模型的應用效能,英特爾宣布其Gaudi 2D AI加速器已
    的頭像 發表于 02-10 11:10 ?551次閱讀

    DeepSeek發布Janus Pro模型,英特爾Gaudi 2D AI加速器優化支持

    Gaudi 2D AI加速器現已針對該模型進行了全面優化。這一優化舉措使得AI開發者能夠更輕松地實現復雜任務的部署與優化,從而有效滿足行業應用對于推理算力的迫切需求。 英特爾Gaudi
    的頭像 發表于 02-08 14:35 ?563次閱讀

    誰能詳細介紹一下track-and-hold

    在運放和ADC芯片的數據手冊中經??吹絫rack-and-hold,誰能詳細介紹一下track-and-hold
    發表于 01-20 09:10

    ADS7864 HOLD信號的頻率應該是多少?

    ADS7864的DATASHEET上說,外部時鐘為8MHz,A/D采樣頻率為500kHz。ADS7864A、B、C三對通道,每對兩個通道,共六個通道,請問這里所說的500kHz采樣頻率是每個
    發表于 01-15 07:26

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    那些擁有數十億甚至數千億參數的大規模模型成為了現實可能。Transformer 等機制模型架構的橫空出世,徹底改變了模型訓練的效率和性能。
    發表于 12-24 13:10

    階躍星辰發布國內首個千億參數端到端語音大模型

    近日,階躍星辰在官方公眾號上宣布了一項重大突破——推出Step-1o千億參數端到端語音大模型。該模型被譽為“國內首個千億
    的頭像 發表于 12-17 13:43 ?667次閱讀

    你聽說過MIPS嗎?它和ARM區別?

    導讀探索MX2000-BBGA核心版為何選用MIPS指令集的君正X2000處理器,MIPS相較于ARM哪方面優勢?前段時間ZLG致遠電子推出了MX2000-BBGA核心版,這款產品的核心芯片搭載了
    的頭像 發表于 11-23 01:05 ?677次閱讀
    你聽說過MIPS嗎?它和ARM<b class='flag-5'>有</b><b class='flag-5'>何</b>區別?

    【迅為電子】龍芯LS2K1000LA和LS2K1000區別?

    【迅為電子】龍芯LS2K1000LA和LS2K1000區別?
    的頭像 發表于 11-13 14:13 ?644次閱讀
    【迅為電子】龍芯LS<b class='flag-5'>2</b>K1000LA和LS<b class='flag-5'>2</b>K1000<b class='flag-5'>有</b><b class='flag-5'>何</b>區別?

    電阻R2什么用

    電阻R2什么用請各位大俠觀一下給本人講解一下對次感謝各位觀看
    發表于 10-26 09:42

    AI大模型在圖像識別中的優勢

    AI大模型在圖像識別中展現出了顯著的優勢,這些優勢主要源于其強大的計算能力、深度學習算法以及大規模的數據處理能力。以下是對AI大模型在圖像識別中優勢
    的頭像 發表于 10-23 15:01 ?2276次閱讀

    英特爾發布Gaudi3 AI加速器,押注低成本優勢挑戰市場

    英特爾近期震撼發布了專為AI工作負載設計的Gaudi3加速器,這款新芯片雖在速度上不及英偉達熱門型號H100與H200 GPU,但英特爾巧妙地將競爭優勢聚焦于其更為親民的價格與總擁有成本(TCO)上。
    的頭像 發表于 09-26 16:16 ?1113次閱讀

    英偉達震撼發布:全新AI模型參數規模躍升至80億量級

    8月23日,英偉達宣布,其全新AI模型面世,該模型參數規模高達80億,具有精度高、計算效益大等優勢,適用于GPU加速的數據中心、云及工作站環境。
    的頭像 發表于 08-23 16:08 ?1036次閱讀

    Google Gemma 2模型的部署和Fine-Tune演示

    Google 近期發布了最新開放模型 Gemma 2,目前與同等規模的開放模型相比,取得了明顯的優勢,同時在安全可控性上得到了顯著的增強。
    的頭像 發表于 08-09 17:04 ?1179次閱讀
    Google Gemma <b class='flag-5'>2</b><b class='flag-5'>模型</b>的部署和Fine-Tune演示

    Yuan2.0千億模型在通用服務器NF8260G7上的推理部署

    巨量模型的智能生產力正在逐步滲透到各行各業,但它們的部署和運行通常需要專用的AI加速卡,能否在CPU上運行千億模型,對千行百業智能化轉型的深化與普惠至關重要。
    的頭像 發表于 07-30 14:26 ?892次閱讀
    Yuan2.0<b class='flag-5'>千億</b>大<b class='flag-5'>模型</b>在通用服務器NF8260G7上的推理部署