女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI大語言模型的原理、演進及算力測算專題報告

jh18616091022 ? 來源:AIOT大數(shù)據(jù) ? 2023-04-28 10:01 ? 次閱讀

核心觀點:

機器學(xué)習(xí)中模型及數(shù)據(jù)規(guī)模增加有利于提高深度神經(jīng)網(wǎng)絡(luò)性能。人工智能致力于研究能夠模擬、延伸和擴展人類智能的理論方法及技術(shù),并開發(fā)相關(guān)應(yīng)用系統(tǒng);其最終目標是使計算機能夠模擬人的思維方 式和行為。機器學(xué)習(xí)是一門專門研究計算機如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為、以獲取新的知識或技能、重新組織已有的知識結(jié)構(gòu)使之不斷改 善自身性能的學(xué)科,廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機視覺、自然語言處理等領(lǐng)域。深度學(xué)習(xí)是機器學(xué)習(xí)的子集,主要由人工神經(jīng)網(wǎng)絡(luò)組成。與 傳統(tǒng)算法及中小型神經(jīng)網(wǎng)絡(luò)相比,大規(guī)模的神經(jīng)網(wǎng)絡(luò)及海量的數(shù)據(jù)支撐將有效提高深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)性能。

Transformer模型架構(gòu)是現(xiàn)代大語言模型所采用的基礎(chǔ)架構(gòu)。Transformer模型是一種非串行的神經(jīng)網(wǎng)絡(luò)架構(gòu),最初被用于執(zhí)行基于上下文的機器翻譯任務(wù)。Transformer模型以Encoder-Decoder架構(gòu)為基 礎(chǔ),能夠并行處理整個文本序列,同時引入“注意機制”(Attention),使其能夠在文本序列中正向和反向地跟蹤單詞之間的關(guān)系,適合在 大規(guī)模分布式集群中進行訓(xùn)練,因此具有能夠并行運算、關(guān)注上下文信息、表達能力強等優(yōu)勢。

Transformer模型以詞嵌入向量疊加位置編碼 作為輸入,使得輸入序列具有位置上的關(guān)聯(lián)信息。編碼器(Encoder)由Self-Attention(自注意力層)和 Feed Forward Network(前饋網(wǎng) 絡(luò))兩個子層組成,Attention使得模型不僅關(guān)注當前位置的詞語,同時能夠關(guān)注上下文的詞語。解碼器(Decoder)通過Encoder-Decoder Attention層,用于解碼時對于輸入端編碼信息的關(guān)注;利用掩碼(Mask)機制,對序列中每一位置根據(jù)之前位置的輸出結(jié)果循環(huán)解碼得到當 前位置的輸出結(jié)果。

GPT是基于Transformer架構(gòu)的大語言模型,近年迭代演進迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務(wù)之一。GPT是基于Transformer架構(gòu)衍生出的生成式預(yù)訓(xùn)練的單向語言模型,通過對大 量語料數(shù)據(jù)進行無監(jiān)督學(xué)習(xí),從而實現(xiàn)文本生成的目的;在結(jié)構(gòu)上僅采用Transformer架構(gòu)的Decoder部分。自2018年6月OpenAI發(fā)布GPT-1模 型以來,GPT模型迭代演進迅速。GPT-1核心思想是采用“預(yù)訓(xùn)練+微調(diào)”的半監(jiān)督學(xué)習(xí)方法,服務(wù)于單序列文本的生成式任務(wù);GPT-2在預(yù)訓(xùn) 練階段引入多任務(wù)學(xué)習(xí)機制,將多樣化的自然語言處理任務(wù)全部轉(zhuǎn)化為語言模型問題;GPT-3大幅增加了模型參數(shù),更能有效利用上下文信息, 性能得到跨越式提高;GPT-3.5引入人類反饋強化學(xué)習(xí)機制,通過使用人類反饋的數(shù)據(jù)集進行監(jiān)督學(xué)習(xí),能夠使得模型輸出與人類意圖一致。

大語言模型的訓(xùn)練及推理應(yīng)用對算力需求帶來急劇提升。以GPT-3為例,GPT-3參數(shù)量達1750億個,訓(xùn)練樣本token數(shù)達3000億個。考慮采用精度為32位的單精度浮點數(shù)數(shù)據(jù)來訓(xùn)練模型及進行谷歌級訪 問量推理,假設(shè)GPT-3模型每次訓(xùn)練時間要求在30天完成,對應(yīng)GPT-3所需運算次數(shù)為3.15*10^23FLOPs,所需算力為121.528PFLOPS,以A100 PCle芯片為例,訓(xùn)練階段需要新增A100 GPU芯片1558顆,價值量約2337萬美元;對應(yīng)DGX A100服務(wù)器195臺,價值量約3880.5萬美元。假設(shè)推 理階段按谷歌每日搜索量35億次進行估計,則每日GPT-3需推理token數(shù)達7.9萬億個,所需運算次數(shù)為4.76*10^24FLOPs,所需算力為 55EFLOPs,則推理階段需要新增A100 GPU芯片70.6萬顆,價值量約105.95億美元;對應(yīng)DGX A100服務(wù)器8.8萬臺,價值量約175.12億美元。

01、人工智能、機器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)簡介

機器學(xué)習(xí)是實現(xiàn)人工智能的途徑之一

人工智能(Artificial Intelligence,AI)是研究、開發(fā)用于模擬、延伸和擴展人類智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的 技術(shù)科學(xué)。人工智能的最終目標是使計算機能夠模擬人的思維方式和行為。機器學(xué)習(xí)(Machine Learning,ML)是實現(xiàn)人工智能的一種途徑,是一門專門研究計算機如何模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為、以獲取新 的知識或技能、重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。機器學(xué)習(xí)包括數(shù)據(jù)、模型、算法三要素。從實踐上來看,機器學(xué)習(xí)是在大數(shù)據(jù)的支撐下,通過各種算法讓機器對數(shù)據(jù)進行深層次的統(tǒng) 計分析以進行“自學(xué)”(訓(xùn)練模型),使人工智能系統(tǒng)獲得了歸納推理和決策能力。機器學(xué)習(xí)作為一套數(shù)據(jù)驅(qū)動方法,已廣泛應(yīng)用于數(shù)據(jù) 挖掘、自然語言處理、機器視覺、搜索引擎、醫(yī)學(xué)診斷、生物特征識別、DNA序列測序、證券市場分析等領(lǐng)域。

模型及數(shù)據(jù)規(guī)模增加有利于提高深度神經(jīng)網(wǎng)絡(luò)性能

深度學(xué)習(xí)(Deep Learning,DL)是機器學(xué)習(xí)的子集,由人工神經(jīng)網(wǎng)絡(luò)(ANN)組成。深度學(xué)習(xí)模仿人腦中存在的相似結(jié)構(gòu), 其學(xué)習(xí)是通過相互關(guān)聯(lián)的“神經(jīng)元”的深層的、多層的“網(wǎng)絡(luò)”來進行的。典型的神經(jīng)網(wǎng)絡(luò)從結(jié)構(gòu)上可以分為三層:輸入層、隱藏層、輸出層。其中,輸入層(input layer)是指輸入特征向量;隱藏 層(hidden layer)是指抽象的非線性中間層;輸出層(output layer)是指輸出預(yù)測值。深層神經(jīng)網(wǎng)絡(luò)即包含更多隱藏層的神 經(jīng)網(wǎng)絡(luò)。相比于傳統(tǒng)機器學(xué)習(xí)模型,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)更能在海量數(shù)據(jù)上發(fā)揮作用。若希望獲得更好的性能,不僅需要訓(xùn)練一個規(guī)模 足夠大的神經(jīng)網(wǎng)絡(luò)(即帶有許多隱藏層的神經(jīng)網(wǎng)絡(luò),及許多參數(shù)及相關(guān)性),同時也需要海量的數(shù)據(jù)支撐。數(shù)據(jù)的規(guī)模及神經(jīng)網(wǎng) 絡(luò)的計算性能,需要有強大的算力作為支撐。

CNN和RNN是常見的神經(jīng)網(wǎng)絡(luò)模型

傳統(tǒng)常見的神經(jīng)網(wǎng)絡(luò)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)多用于計算機視覺、自動駕駛、人臉識別、虛擬現(xiàn)實、醫(yī)學(xué)領(lǐng)域、人機交互、智能安防等圖像應(yīng)用;相比于標準神經(jīng)網(wǎng)絡(luò),CNN能夠 更好地適應(yīng)高緯度的輸入數(shù)據(jù),卷積設(shè)計有效減少了模型的參數(shù)數(shù)量。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)常用于處理序列數(shù)據(jù),獲取數(shù)據(jù)中的時間依賴 性。由于語言都是逐個出現(xiàn)的,同時語言是時序前后相互關(guān)聯(lián)的數(shù)據(jù),因此語言作為最自然表達出來的 序列數(shù)據(jù),適合應(yīng)用RNN進行語音識別、情感分類、機器翻譯、語言生成、命名實體識別等應(yīng)用。

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)曾是自然語言處理的首選解決方案。RNN能夠在處理單詞序列時,將處理第一個詞的結(jié)果反饋到處理下一個詞的層, 使得模型能夠跟蹤整個句子而非單個單詞。但RNN存在缺點:由于這種串行結(jié)構(gòu),RNN無法對于長序列文本進行有效處理,甚至可能當初始 單詞過遠時“遺忘”相關(guān)信息。

02、Transformer模型結(jié)構(gòu)分析

Transformer模型以Encoder-Decoder架構(gòu)為基礎(chǔ)

《Attention is all your need》 by OpenAI 。作為與傳統(tǒng)的CNN、RNN不同的深度學(xué)習(xí)模型架構(gòu),Transformer模型最初是被用于基于 上下文的機器翻譯模型。由于Transformer模型非串行結(jié)構(gòu),能夠并行處理整個序列;同 時引入“注意機制”(attention),能夠在文本序列中正向和反向地跟蹤單詞之間的關(guān) 系,適合在大規(guī)模分布式集群中進行訓(xùn)練。Transformer以Encoder-Decoder架構(gòu)為基礎(chǔ)。其中,編碼組件由多層編碼器(Encoder) 組成。解碼組件也是由相同層數(shù)的解碼器(Decoder)組成。Encoder用于提取源端語言 的語義特征,而用Decoder提取目標端語言的語義特征,并生成相對應(yīng)的譯文。Transformer模型具有能夠并行運算、關(guān)注上下文信息、表達能力強等優(yōu)勢。

Transformer模型結(jié)構(gòu)分析——詞嵌入(Embedding)

詞嵌入是NLP最基礎(chǔ)的概念之一,表示來自詞匯表的單詞或者短語被映射成實數(shù)向量。最早的詞嵌入模型是word2vec等神經(jīng)網(wǎng)絡(luò)模型, 屬于靜態(tài)詞嵌入(不關(guān)注上下文)。例如大模型誕生前常用的RNN模型所用的輸入便是預(yù)訓(xùn)練好的詞嵌入。詞向量能夠?qū)⒄Z義信息與空間 向量關(guān)聯(lián)起來(例如經(jīng)典的詞類比例子:king、queen、man、woman對應(yīng)詞向量的關(guān)系)。詞嵌入產(chǎn)生要素及步驟:Vocabulary:所有的token組成集合。詞向量表:token與詞向量的一一對應(yīng)關(guān)系。詞向量可以由預(yù)訓(xùn)練產(chǎn)生,也可以是模型參數(shù)。查表:輸入的token都對應(yīng)一個固定維度的浮點數(shù)向量(詞嵌入向量)。位置編碼:表示序列中詞的順序,具體方法為為每個輸入的詞添加一個位置向量。根據(jù)位置編碼對應(yīng)計算公式,pos表示位置,i表示維度。位置編碼能夠讓模型學(xué)習(xí)到token之間的相對位置關(guān)系。

Transformer模型結(jié)構(gòu)分析——Encoder

編碼組件可由多層編碼器(Encoder)組成,同樣解碼組件也由相同層數(shù)的解碼器(Decoder)組成。一般來講,對于中間層的輸出向量,底層Encoder輸出的表示淺層含義,頂層Encoder輸出的表示深層含義。每個Encoder由兩個子層組成:Self-Attention層(自注意力層)和 Feed Forward Network(FFN,前饋網(wǎng)絡(luò))組成。對于每一層Encoder,詞嵌入向量輸入會首先進入Self-Attention層,Encoder對詞向量進行編碼時,會對整句輸入的上下文均進行Attention操作,從而關(guān)注 并使用到輸入句子的上下文的信息。Decoder端存在Cross-Attention層(Encoder-Decoder Attention層),用于解碼時對輸入部分的信息進行Attention關(guān)注。

經(jīng)過Self-Attention層的輸入進入前饋網(wǎng)絡(luò),前饋網(wǎng)絡(luò)一般是全連接層網(wǎng)絡(luò)(并經(jīng)過非線性的激活函數(shù),如ReLU函數(shù))。全連接層是最基本的神經(jīng)網(wǎng)絡(luò),每一個結(jié)點都與上一層的所有結(jié)點相連。ReLU函數(shù):即修正線性單元(Rectified linear unit),又稱線性整流函數(shù),通常指以斜坡函數(shù)及其變種為代表的非線性函數(shù)。激活函數(shù):為使神經(jīng)網(wǎng)絡(luò)具有擬合函數(shù)的能力而引入非線性;如不引入非線性,則無論多少層神經(jīng)網(wǎng)絡(luò)都相當于一個線性映射。下一個Encoder的輸入是上一個Encoder的輸出,以此類推。

Transformer模型結(jié)構(gòu)分析——Multi-head Attention

Multi-head Attention即多頭注意力機制,采用 多組不同的線性變換對Q、K、V矩陣進行映射并分別 計算Attention,再將不同的Attention結(jié)果拼接起 來進行線性變換。Multi-head Attention本質(zhì)是在參數(shù)總量保持不 變的情況下,將Q、K、V映射到高維空間的不同子空 間進行Attention計算,防止過擬合。

03、大規(guī)模語言模型算力需求測算(以GPT-3為例)

BERT和GPT是基于Transformer架構(gòu)的兩種大規(guī)模語言模型

構(gòu)建語言模型(Language Model,LM)是自然語言處理(Natural Language Processing,NLP)中最基本和最 重要的任務(wù)之一,自然語言處理基于Transformer架構(gòu)衍生出了兩種主流大語言模型(Large Language Model, LLM)——BERT和GPT。二者都是無監(jiān)督預(yù)訓(xùn)練的大語言模型。BERT(Bidirectional Encoder Representations from Transformer)能夠生成深度雙向語言表征,是采用帶 有掩碼(mask)的大語言模型,類似于完形填空,根據(jù)上下文預(yù)測空缺處的詞語。結(jié)構(gòu)上,BERT僅采用Transformer 架構(gòu)的Encoder部分。

GPT(Generative Pre-training Transformer)是生成式預(yù)訓(xùn)練的單向語言模型。通過對大量語料數(shù)據(jù)進行無 監(jiān)督學(xué)習(xí),從而實現(xiàn)文本生成的目的。結(jié)構(gòu)上,GPT僅采用Transformer架構(gòu)的Decoder部分。自2018年6月起OpenAI發(fā)布GPT-1模型以來,GPT更新?lián)Q代持續(xù)提升模型及參數(shù)規(guī)模。隨著OpenAI于2022年11月30 日發(fā)布ChatGPT引爆AI領(lǐng)域,海內(nèi)外科技公司紛紛宣布發(fā)布大語言模型。用戶爆發(fā)式增長對大語言模型的算力需求帶 來挑戰(zhàn)。

GPT-1:預(yù)訓(xùn)練+微調(diào)的半監(jiān)督學(xué)習(xí)模型

《Improving Language Understanding by Generative Pre-Training》 by OpenAI。GPT-1是生成式預(yù)訓(xùn)練模型,核心思想是“預(yù)訓(xùn)練+微調(diào)”的半監(jiān)督學(xué)習(xí)方法,目標是服務(wù)于單序列文本的生成式任務(wù)。生成式:表示模型建模的是一段句子出現(xiàn)的概率,可以分解為基于語言序列前序已出現(xiàn)單詞條件下后一單詞出現(xiàn)的條件概率之乘積。四大常見應(yīng)用:分類、蘊含、相似、選擇,分類:每段文本具有對應(yīng)標號,將文本按標 號進行分類 ,蘊含:給出一段文本和假設(shè),判斷該段文本 中是否蘊含該假設(shè),相似:判斷兩段文本是否相似(用于搜索、 查詢、去重等) ,選擇:對有多個選項的問題進行回答。

GPT-2:強調(diào)多任務(wù)的預(yù)訓(xùn)練模型

《Language Models are Unsupervised Multitask Learners》 by OpenAI,預(yù)訓(xùn)練+微調(diào)的范式只能對于特定自然語言處理任務(wù)(例如問答、機器翻譯、閱讀理解、提取摘要等)使用特定的數(shù)據(jù)集 進行有監(jiān)督學(xué)習(xí),單一領(lǐng)域數(shù)據(jù)集缺乏對多種任務(wù)訓(xùn)練的普適性。GPT-2在預(yù)訓(xùn)練階段便引入多任務(wù)學(xué)習(xí)機制,通過加入各種NLP 任務(wù)所需要的數(shù)據(jù)集,在盡可能多的領(lǐng)域和上下文中收集屬于對 應(yīng)任務(wù)的自然語言。由此得到的GPT-2模型可以以zero-shot的方 式被直接應(yīng)用于下游任務(wù),而無需進行有監(jiān)督的精調(diào)。GPT-2將多樣化的的NLP任務(wù)全部轉(zhuǎn)化為語言模型問題。語言提 供了一種靈活的方式來將任務(wù),輸入和輸出全部指定為一段文本。對文本的生成式建模就是對特定任務(wù)進行有監(jiān)督學(xué)習(xí)。

GPT-3:能夠舉一反三的大語言模型

《Language Models are Few-Shot Learners》 by OpenAI。相比GPT-2,GPT-3大幅增加了模型參數(shù)。GPT-3是具有1750億個參數(shù)的自回歸語言模型,更能有效利用上下文 信息。對于特定的下游任務(wù),GPT-3無需進行任何梯度更新或微調(diào),僅需通過與模型交互并提供少量范例即可。特點:1、模型規(guī)模急劇增加(使得模型性能提升迅猛);2、實現(xiàn)few-shot learning。in-context learning:對模型進行引導(dǎo),使其明白應(yīng)輸出什么內(nèi)容。Q:你喜歡吃蘋果嗎?A1:我喜歡吃。A2:蘋果是什么?A3:今天天氣真好。A4:Do you like eating apples? 采用prompt提示語:漢譯英:你喜歡吃蘋果嗎?請回答:你喜歡吃蘋果嗎?

GPT-3模型對GPU與AI服務(wù)器需求展望

根據(jù)結(jié)論,1個參數(shù)量為1750億個的GPT-3模型在訓(xùn)練階段需要新增1558顆A100 GPU芯片,對應(yīng)價值為2337萬美元,需要195臺 DGX A100服務(wù)器;在推理階段需要新增70.6萬顆A100 GPU芯片,對應(yīng)價值為105.95億美元,需要8.8萬臺DGX A100服務(wù)器??紤] 一臺DGX A100服務(wù)器售價19.9萬美元,則在訓(xùn)練階段DGX A100服務(wù)器價值量為3880.5萬美元,推理階段DGX A100服務(wù)器價值量 為175.12億美元。英偉達(Nvidia)是一家人工智能計算公司,其GPU產(chǎn)品和架構(gòu)為科學(xué)計算、人工智能(AI)、數(shù)據(jù)科學(xué)、自動駕駛汽車 (AV)、機器人、元宇宙和3D互聯(lián)網(wǎng)應(yīng)用創(chuàng)建平臺。FY23英偉達收入為269.74億美元。若按上述結(jié)論,GPT-3新增GPU價值達到英 偉達公司FY23收入的39.4%。

據(jù)IDC數(shù)據(jù),受益于全球經(jīng)濟的快速復(fù)蘇,2021年用戶對數(shù)據(jù)中心基礎(chǔ)設(shè)施的投資持續(xù)上漲,全球服務(wù)器市場出貨量為1353.9 萬臺。據(jù)TrendForce數(shù)據(jù),截至2022年底預(yù)計搭載GPGPU(General Purpose GPU)的AI服務(wù)器年出貨量占整體服務(wù)器比例近1%。若采用上述數(shù)據(jù)大致估算,GPT-3新增AI服務(wù)器數(shù)量達到2021年全球AI服務(wù)器數(shù)量的65.35%。

報告節(jié)選:

e77057fa-e567-11ed-ab56-dac502259ad0.jpg

e78029c8-e567-11ed-ab56-dac502259ad0.jpg

e7984c9c-e567-11ed-ab56-dac502259ad0.jpg

e7b64af8-e567-11ed-ab56-dac502259ad0.jpg

e7d8a012-e567-11ed-ab56-dac502259ad0.jpg

e7ec9f0e-e567-11ed-ab56-dac502259ad0.jpg

e7fe12f2-e567-11ed-ab56-dac502259ad0.jpg

e8161f0a-e567-11ed-ab56-dac502259ad0.jpg

e823c560-e567-11ed-ab56-dac502259ad0.jpg

e83e6028-e567-11ed-ab56-dac502259ad0.jpg

e857bbc2-e567-11ed-ab56-dac502259ad0.jpg

e868534c-e567-11ed-ab56-dac502259ad0.jpg

e87bee84-e567-11ed-ab56-dac502259ad0.jpg

e891e96e-e567-11ed-ab56-dac502259ad0.jpg

e8b6ddc8-e567-11ed-ab56-dac502259ad0.jpg

e8d5573a-e567-11ed-ab56-dac502259ad0.jpg

e8ec21fe-e567-11ed-ab56-dac502259ad0.jpg

e90162f8-e567-11ed-ab56-dac502259ad0.jpg

e9168fca-e567-11ed-ab56-dac502259ad0.jpg

e92ba996-e567-11ed-ab56-dac502259ad0.jpg

e93e922c-e567-11ed-ab56-dac502259ad0.jpg

e95619c4-e567-11ed-ab56-dac502259ad0.jpg

e96c366e-e567-11ed-ab56-dac502259ad0.jpg

e97dc668-e567-11ed-ab56-dac502259ad0.jpg

e9921050-e567-11ed-ab56-dac502259ad0.jpg

e9b51550-e567-11ed-ab56-dac502259ad0.jpg

e9c6e992-e567-11ed-ab56-dac502259ad0.jpg

e9dc0c64-e567-11ed-ab56-dac502259ad0.jpg

e9fc0154-e567-11ed-ab56-dac502259ad0.jpg

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4806

    瀏覽量

    102716
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34145

    瀏覽量

    275241
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    558

    瀏覽量

    10660
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8490

    瀏覽量

    134029

原文標題:AI大語言模型的原理、演進及算力測算專題報告

文章出處:【微信號:AIOT大數(shù)據(jù),微信公眾號:AIOT大數(shù)據(jù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    明晚開播 | 數(shù)據(jù)智能系列講座第6期:大模型革命背后的架構(gòu)創(chuàng)新

    背后的架構(gòu)創(chuàng)新報告簡介本報告回顧了AI技術(shù)演進的歷程。隨著人工智能技術(shù)的迅猛發(fā)展,特別是大
    的頭像 發(fā)表于 05-20 08:04 ?50次閱讀
    明晚開播 | 數(shù)據(jù)智能系列講座第6期:大<b class='flag-5'>模型</b>革命背后的<b class='flag-5'>算</b><b class='flag-5'>力</b>架構(gòu)創(chuàng)新

    直播預(yù)約 | 數(shù)據(jù)智能系列講座第6期:大模型革命背后的架構(gòu)創(chuàng)新

    模型革命背后的架構(gòu)創(chuàng)新報告簡介本報告回顧了AI技術(shù)演進
    的頭像 發(fā)表于 05-12 14:05 ?115次閱讀
    直播預(yù)約 | 數(shù)據(jù)智能系列講座第6期:大<b class='flag-5'>模型</b>革命背后的<b class='flag-5'>算</b><b class='flag-5'>力</b>架構(gòu)創(chuàng)新

    RAKsmart高性能服務(wù)器集群:驅(qū)動AI語言模型開發(fā)的引擎

    RAKsmart高性能服務(wù)器集群憑借其創(chuàng)新的硬件架構(gòu)與全棧優(yōu)化能力,成為支撐大語言模型開發(fā)的核心算引擎。下面,AI部落小編帶您了解RAKsmart如何為
    的頭像 發(fā)表于 04-15 09:40 ?157次閱讀

    DeepSeek推動AI需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI需求正以前所未有的速度增長。DeepSeek等大模型的訓(xùn)練與推理任務(wù)對
    發(fā)表于 03-25 12:00

    接棒,慧榮科技以主控技術(shù)突破AI存儲極限

    電子發(fā)燒友網(wǎng)報道(文/黃山明)在AI的高速增長下,尤其是以DeepSeek為代表的AI模型推動存儲需求激增,增長倒逼存
    的頭像 發(fā)表于 03-19 01:29 ?1553次閱讀
    存<b class='flag-5'>力</b>接棒<b class='flag-5'>算</b><b class='flag-5'>力</b>,慧榮科技以主控技術(shù)突破<b class='flag-5'>AI</b>存儲極限

    中興通訊在AI領(lǐng)域的創(chuàng)新實踐與深度思考

    近日,世界互聯(lián)網(wǎng)大會在巴塞羅那世界移動通信大會(MWC 25巴塞羅那)期間,舉辦了以 “打造融合、普惠、綠色的 AI 新生態(tài)” 為主題的AI
    的頭像 發(fā)表于 03-10 15:47 ?435次閱讀

    AI 報告來了!2025中國AI市場將達 259 億美元

    報告來源:IDC、浪潮信息2月13日,國際數(shù)據(jù)公司(IDC)攜手浪潮信息,重磅發(fā)布《2025年中國人工智能計算發(fā)展評估報告》。當下,大模型與生成式人工智能熱度飆升,
    的頭像 發(fā)表于 03-07 13:27 ?569次閱讀
    <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>報告</b>來了!2025中國<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>市場將達 259 億美元

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技云報到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?371次閱讀

    企業(yè)AI租賃模式的好處

    構(gòu)建和維護一個高效、可擴展的AI基礎(chǔ)設(shè)施,不僅需要巨額的初期投資,還涉及復(fù)雜的運維管理和持續(xù)的技術(shù)升級。而AI
    的頭像 發(fā)表于 12-24 10:49 ?1098次閱讀

    企業(yè)AI租賃是什么

    企業(yè)AI租賃是指企業(yè)通過互聯(lián)網(wǎng)向?qū)I(yè)的提供商租用所需的計算資源,以滿足其AI應(yīng)用的需求。
    的頭像 發(fā)表于 11-14 09:30 ?2251次閱讀

    AI時代的重要性及現(xiàn)狀:平衡發(fā)展與優(yōu)化配置的挑戰(zhàn)

    AI時代,扮演著至關(guān)重要的角色。如果說數(shù)據(jù)是AI模型的“燃料”,那么
    的頭像 發(fā)表于 11-04 11:45 ?991次閱讀

    中國大會召開,業(yè)界首個高質(zhì)量評估體系發(fā)布

    首次完整地構(gòu)建了人工智能時代高質(zhì)量的理論體系,并探索性提出業(yè)界首個 "五位一體"的高質(zhì)量評估體系。 發(fā)布現(xiàn)場 在當前由大模型和AIG
    的頭像 發(fā)表于 09-28 16:50 ?427次閱讀
    中國<b class='flag-5'>算</b><b class='flag-5'>力</b>大會召開,業(yè)界首個<b class='flag-5'>算</b><b class='flag-5'>力</b>高質(zhì)量評估體系發(fā)布

    開啟全新AI時代 智能嵌入式系統(tǒng)快速發(fā)展——“第六屆國產(chǎn)嵌入式操作系統(tǒng)技術(shù)與產(chǎn)業(yè)發(fā)展論壇”圓滿結(jié)束

    航空計算技術(shù)研究所研究員崔西寧做了“AI時代的機載嵌入式操作系統(tǒng)”專題報告。 崔西寧回顧了機載軟件技術(shù)發(fā)展歷程,介紹機載智能計算的演進之路,分享了天脈操作系統(tǒng)現(xiàn)狀和發(fā)展計劃。 圖3崔西寧在做
    發(fā)表于 08-30 17:24

    模型時代的需求

    現(xiàn)在AI已進入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型,以及相關(guān)的穩(wěn)定性和性能
    發(fā)表于 08-20 09:04