大模型訓(xùn)練為什么不能用4090顯卡，GPU訓(xùn)練性能和成本對(duì)比

作者:李博杰 ?

這是一個(gè)好問(wèn)題。先說(shuō)結(jié)論，大模型的訓(xùn)練用 4090 是不行的，但推理（inference/serving）用 4090 不僅可行，在性?xún)r(jià)比上還能跟 H100 打個(gè)平手。

事實(shí)上，H100/A100 和 4090 最大的區(qū)別就在通信和內(nèi)存上，算力差距不大。

?	H100	A100	4090
Tensor FP16 算力	1979 Tflops	312 Tflops	330 Tflops
Tensor FP32 算力	989 Tflops	156 Tflops	83 Tflops
內(nèi)存容量	80 GB	80 GB	24 GB
內(nèi)存帶寬	3.35 TB/s	2 TB/s	1 TB/s
通信帶寬	900 GB/s	900 GB/s	64 GB/s
通信時(shí)延	~1 us	~1 us	~10 us
售價(jià)	$30000~$40000	$15000	$1600

H100 這個(gè)售價(jià)其實(shí)是有 10 倍以上油水的。2016 年我在 MSRA 的時(shí)候，見(jiàn)證了微軟給每塊服務(wù)器部署了 FPGA，把 FPGA 打到了沙子的價(jià)格，甚至成為了供應(yīng)商 Altera 被 Intel 收購(gòu)的重要推手。2017 年我還自己挖過(guò)礦，知道什么顯卡最劃算。后來(lái)在華為，我也是鯤鵬、昇騰生態(tài)軟件研發(fā)的核心參與者。因此，一個(gè)芯片成本多少，我心里大概是有數(shù)的。

鯤鵬的首席架構(gòu)師夏 Core 有一篇知名文章《談一下英偉達(dá)帝國(guó)的破腚》，很好的分析了 H100 的成本：

把他的成本打開(kāi)，SXM 的成本不會(huì)高于 300$，封裝的 Substrate 及 CoWoS 大約也需要 $300，中間的 Logic Die 最大顆，看上去最高貴：）那是 4nm 的一顆 814mm2 的 Die，TSMC 一張 12 英寸 Wafer 大致上可以制造大約 60 顆這個(gè)尺寸的 Die，Nvidia 在 Partial Good 上一向做得很好（他幾乎不賣(mài) Full Good），所以這 60 顆大致能有 50 顆可用，Nvidia 是大客戶(hù)，從 TSMC 手上拿到的價(jià)格大約是 $15000，所以這個(gè)高貴的 Die 大約只需要 $300。哦，只剩下 HBM 了，當(dāng)前 DRAM 市場(chǎng)疲軟得都快要死掉一家的鬼樣了，即使是 HBM3 大抵都是虧本在賣(mài)，差不多只需要 $15/GB，嗯，80GB 的容量成本是 $1200。TSMC 曾經(jīng)講過(guò)一個(gè)故事。臺(tái)灣同胞辛辛苦苦攢錢(qián)建廠，一張 4nm 那么先進(jìn)的工藝哦，才能賣(mài)到 $15000，但是那某個(gè)客戶(hù)拿去噢，能賣(mài)出 $1500000（$30000*50）的貨啦，機(jī)車(chē)，那樣很討厭耶。你懂我意思嗎？就如最開(kāi)始說(shuō)的，在這個(gè)世界的商業(yè)規(guī)則下，$2000 成本的東西賣(mài) $30000，只有一家，銷(xiāo)售量還很大，這是不符合邏輯的，這種金母雞得有航母才守得住。

據(jù)說(shuō)微軟和 OpenAI 包下了 H100 2024 年產(chǎn)能的一半，猜猜他們會(huì)不會(huì)發(fā)揮當(dāng)年跟 Altera 砍價(jià)的傳統(tǒng)藝能？會(huì)真的花 $40,000 * 500,000 = 200 億美金去買(mǎi)卡？

咱們?cè)俜治鱿?4090 的成本，5nm 的 609mm2 Die，大約成本是 $250。GDDR6X，24 GB，按照 1 GB $10 算，$240。PCIe Gen4 這種便宜東西就算 $100 吧。封裝和風(fēng)扇這些東西，算它 $300。總成本最多 $900，這樣的東西賣(mài) $1600，算是良心價(jià)了，因?yàn)檠邪l(fā)成本也是錢(qián)啊，更何況 NVIDIA 的大部分研發(fā)人員可是在世界上程序員平均薪酬最高的硅谷。

可以說(shuō)，H100 就像是中國(guó)一線城市的房子，本身鋼筋水泥不值多少錢(qián)，房?jī)r(jià)完全是被供求關(guān)系吹起來(lái)的。我在 LA 已經(jīng)住了兩周，公司租的房子使用面積是我北京房子的 4 倍，但售價(jià)只貴了 30%，還帶個(gè)小院，相當(dāng)于單位面積的房?jī)r(jià)是北京的 1/3。我跟本地的老外聊天，他們都很吃驚，你們的平均收入水平比 LA 低這么多，怎么買(mǎi)得起北京的房子的？

問(wèn)題來(lái)了，如果 4090 這么香的話(huà)，為啥大家還要爭(zhēng)著買(mǎi) H100，搞得 H100 都斷貨了？甚至 H100 都要對(duì)華禁售，搞出個(gè) H800 的閹割版？

大模型訓(xùn)練為什么不能用 4090

GPU 訓(xùn)練性能和成本對(duì)比

LambdaLabs 有個(gè)很好的 GPU 單機(jī)訓(xùn)練性能和成本對(duì)比，在此摘錄如下。

首先看吞吐量，看起來(lái)沒(méi)有什么違和的，在單卡能放下模型的情況下，確實(shí)是 H100 的吞吐量最高，達(dá)到 4090 的兩倍。看算力和內(nèi)存也能看出來(lái)，H100 的 FP16 算力大約是 4090 的 6 倍，內(nèi)存帶寬是 3.35 倍，訓(xùn)練過(guò)程中由于 batch size 比較大，大多數(shù)算子是 compute bound（計(jì)算密集型），少數(shù)算子是 memory bound（內(nèi)存密集型），這個(gè)結(jié)果是不意外的。

LambdaLabs PyTorch 單卡訓(xùn)練吞吐量對(duì)比圖

LambdaLabs PyTorch 單卡訓(xùn)練吞吐量對(duì)比表

然后看性?xún)r(jià)比，就有意思了，原來(lái)排在榜首的 H100 現(xiàn)在幾乎墊底了，而且 4090 和 H100 的差距高達(dá)接近 10 倍。這就是因?yàn)?H100 比 4090 貴太多了。

由于 H100 貨源緊張，云廠商的 H100 租用價(jià)格就更黑了，按照標(biāo)價(jià)大約 7 個(gè)月就可以回本。就算大客戶(hù)價(jià)能便宜一半，一年半也足夠回本了。

在價(jià)格戰(zhàn)中過(guò)慣了苦日子的 IaaS 云服務(wù)商看到這樣的 H100 回本速度，估計(jì)要感嘆，這真是比區(qū)塊鏈挖礦回本還快吶。

LambdaLabs PyTorch 單卡訓(xùn)練單位成本吞吐量對(duì)比圖

LambdaLabs PyTorch 單卡訓(xùn)練單位成本吞吐量對(duì)比表

大模型訓(xùn)練的算力需求

既然 4090 單卡訓(xùn)練的性?xún)r(jià)比這么高，為啥不能用來(lái)做大模型訓(xùn)練呢？拋開(kāi)不允許游戲顯卡用于數(shù)據(jù)中心這樣的許可證約束不談，從技術(shù)上講，根本原因是大模型訓(xùn)練需要高性能的通信，但 4090 的通信效率太低。

大模型訓(xùn)練需要多少算力？訓(xùn)練總算力（Flops）= 6 * 模型的參數(shù)量 * 訓(xùn)練數(shù)據(jù)的 token 數(shù)。

我今年初第一次看到有人煞有介事地講這個(gè)公式的時(shí)候，覺(jué)得這不是顯然的嗎？又看到 OpenAI 的高級(jí)工程師能拿 90 多萬(wàn)美金的年薪，頓時(shí)整個(gè)人都不好了，還是 AI 香呀。之前我也面試過(guò)一些做 AI 的工程師，包括一些做 AI 系統(tǒng)優(yōu)化的專(zhuān)家，連 Q、K、V 是啥都說(shuō)不清楚，LLaMA 每個(gè) tensor 的大小也算不出來(lái)，就這樣還能拿到 offer。

APNet 2023 panel 的主題是 Network, AI, and Foundational Models: Opportunties and Challenges。前面幾個(gè)問(wèn)題都中規(guī)中矩的，panelists 有點(diǎn)放不開(kāi)，我就提了一個(gè)問(wèn)題，網(wǎng)絡(luò)歷史上的重要成就基本上都基于對(duì)應(yīng)用場(chǎng)景深刻的理解，但我們現(xiàn)在做網(wǎng)絡(luò)的很多都不了解 AI，甚至連每個(gè) tensor 的大小和每個(gè) step 傳輸?shù)臄?shù)據(jù)量都不知道，如何讓 network community 更了解 AI 呢？

這下熱鬧了，臺(tái)下的譚博首先發(fā)言，說(shuō)我在華為肯定能知道所有這些東西；然后傳雄老師也跟了一句，要是做網(wǎng)絡(luò)的懂了太多 AI，那可能他就變成一個(gè) AI guy 了。接著主持人陳凱教授問(wèn)，你們有誰(shuí)真的訓(xùn)練過(guò)大模型？沉默了一會(huì)兒，阿里的兄弟先說(shuō)，我算是半個(gè)訓(xùn)練過(guò)大模型的，我們做的東西是支撐阿里大模型 infra 的。后面又有 panelist 說(shuō)，做 AI 系統(tǒng)的網(wǎng)絡(luò)優(yōu)化是否有必要自己懂 AI 呢，是不是只要會(huì)做 profiling 就行了？

我個(gè)人觀點(diǎn)仍然是，AI 并不難學(xué)，要想做好 AI 系統(tǒng)優(yōu)化，可以不懂 attention 的 softmax 里面為什么要除以 sqrt(d_k)，但不能不會(huì)計(jì)算模型所需的算力、內(nèi)存帶寬、內(nèi)存容量和通信數(shù)據(jù)量。Jeff Dean 就有個(gè)很有名的 Numbers Every Programmer Should Know，數(shù)量級(jí)的估算對(duì)任何系統(tǒng)優(yōu)化來(lái)說(shuō)都很關(guān)鍵，不然根本不知道瓶頸在哪里。

回到大模型訓(xùn)練所需的總算力，其實(shí)很簡(jiǎn)單，6 * 模型的參數(shù)量 * 訓(xùn)練數(shù)據(jù)的 token 數(shù)就是所有訓(xùn)練數(shù)據(jù)過(guò)一遍所需的算力。這里的 6 就是每個(gè) token 在模型正向傳播和反向傳播的時(shí)候所需的乘法、加法計(jì)算次數(shù)。

一堆矩陣相乘，簡(jiǎn)單來(lái)想就是左邊若干個(gè)神經(jīng)元，右邊若干個(gè)神經(jīng)元，組成一個(gè)完全二分圖。選出其中任意一個(gè)左邊的神經(jīng)元 l 和右邊的神經(jīng)元 r。

正向傳播的時(shí)候：

l 把它的輸出乘上 l 和 r 之間的權(quán)重 w，發(fā)給 r；

r 不可能只連一個(gè)神經(jīng)元吧，總要把多個(gè) l 的加到一起，這就是 reduce，需要一次加法。

反向傳播的時(shí)候：

r 把它收到的梯度乘上 l 和 r 之間的權(quán)重 w，發(fā)給 l；

l 也不可能只連一個(gè) r，需要把梯度 reduce 一下，做個(gè)加法；

別忘了權(quán)重 w 需要更新，那就要計(jì)算 w 的梯度，把 r 收到的梯度乘上 l 正向傳播的輸出（activation）；

一個(gè) batch 一般有多個(gè) sample，權(quán)重 w 的更新需要把這些 sample 的梯度加到一起。

一共 3 次乘法，3 次加法，不管 Transformer 多復(fù)雜，矩陣計(jì)算就是這么簡(jiǎn)單，其他的向量計(jì)算、softmax 之類(lèi)的都不是占算力的主要因素，估算的時(shí)候可以忽略。

想起來(lái)我 2019 年剛加入 MindSpore 團(tuán)隊(duì)的時(shí)候，領(lǐng)導(dǎo)讓我開(kāi)發(fā)一個(gè)正向算子的反向版本，我求導(dǎo)給求錯(cuò)了，搞得算子的計(jì)算結(jié)果總是不對(duì)，還以為是我們的編譯器出 bug 了。當(dāng)發(fā)現(xiàn)求導(dǎo)求錯(cuò)的時(shí)候，領(lǐng)導(dǎo)像以為我沒(méi)學(xué)過(guò)微積分一樣看著我，確實(shí)我的微積分學(xué)的不好，這也是我從數(shù)學(xué)專(zhuān)業(yè)轉(zhuǎn)到計(jì)算機(jī)專(zhuān)業(yè)的原因之一。

在 MindSpore 的時(shí)候，自動(dòng)微分一共就不到 1000 行代碼，按照微分公式遞歸計(jì)算下去就行了，但自動(dòng)微分作為一個(gè)重要特性被吹了半天，我都感覺(jué)不好意思了。

模型的參數(shù)量和訓(xùn)練數(shù)據(jù)的 token 數(shù)之間也有個(gè)比例關(guān)系，這也很容易理解，只要把模型想象成數(shù)據(jù)的壓縮版本就行了，壓縮比總是有極限的。模型的參數(shù)量太小，就吃不下訓(xùn)練數(shù)據(jù)里面所有的知識(shí)；模型的參數(shù)量如果大于訓(xùn)練數(shù)據(jù)的 token 數(shù)，那又浪費(fèi)，還容易導(dǎo)致 over-fitting。

訓(xùn)練 LLaMA-2 70B 需要多少?gòu)埧?/p>

有了模型訓(xùn)練所需的總算力，除以每個(gè) GPU 的理論算力，再除以 GPU 的有效算力利用比例，就得到了所需的 GPU-hours，這塊已經(jīng)有很多開(kāi)源數(shù)據(jù)。LLaMA 2 70B 訓(xùn)練需要 1.7M GPU hours（A100），要是用 1 個(gè) GPU，那得算 200 年。要在一個(gè)月這種比較能接受的時(shí)間周期內(nèi)訓(xùn)練出來(lái)，就得至少有 2400 塊 A100。

如果用 4090，單卡 FP16 算力是跟 A100 差不多（330 vs 312 Tflops），但是內(nèi)存帶寬比 A100 低一半（1 vs 2 TB/s），內(nèi)存容量更是差好幾倍（24 vs 80 GB），計(jì)算梯度時(shí)需要使用的 TF32 算力也低一半（83 vs 156 Tflops），綜合起來(lái) 4090 單卡的訓(xùn)練速度還比 A100 稍低（參考前面 LambdaLabs 的評(píng)測(cè)）。

就按照 2048 塊 4090 算吧，這 2048 塊 4090 之間的通信就成了最大的問(wèn)題。

為什么？一般有 tensor parallelism、pipeline parallelism、data parallelism 幾種并行方式，分別在模型的層內(nèi)、模型的層間、訓(xùn)練數(shù)據(jù)三個(gè)維度上對(duì) GPU 進(jìn)行劃分。三個(gè)并行度乘起來(lái)，就是這個(gè)訓(xùn)練任務(wù)總的 GPU 數(shù)量。

三種并行方式從三個(gè)維度劃分計(jì)算空間的示意圖，來(lái)源：DeepSpeed

Data parallelism（數(shù)據(jù)并行）

數(shù)據(jù)并行是最容易想到的并行方式。每個(gè) GPU 分別計(jì)算不同的輸入數(shù)據(jù)，計(jì)算各自的梯度（也就是模型參數(shù)的改變量），再把梯度匯總起來(lái)，取個(gè)平均值，廣播給各個(gè) GPU 分別更新。

Data Parallelism 示意圖，來(lái)源：Colossal AI

但只用數(shù)據(jù)并行是肯定不行的，因?yàn)橐粔K GPU 放不下整個(gè) LLaMA 70B 模型。

就模型訓(xùn)練需要多少 GPU 內(nèi)存，我發(fā)現(xiàn)能算清楚的人就不多。有的人甚至以為只需要把模型的參數(shù)和反向傳播的梯度存下來(lái)就夠了。事實(shí)上，訓(xùn)練需要的內(nèi)存包括模型參數(shù)、反向傳播的梯度、優(yōu)化器所用的內(nèi)存、正向傳播的中間狀態(tài)（activation）。

優(yōu)化器所用的內(nèi)存其實(shí)也很簡(jiǎn)單，如果用最經(jīng)典的 Adam 優(yōu)化器，它需要用 32 位浮點(diǎn)來(lái)計(jì)算，否則單純使用 16 位浮點(diǎn)來(lái)計(jì)算的誤差太大，模型容易不收斂。因此，每個(gè)參數(shù)需要存 4 字節(jié)的 32 位版本（正向傳播時(shí)用 16 位版本，優(yōu)化時(shí)用 32 位版本，這叫做 mixed-precision），還需要存 4 字節(jié)的 momentum 和 4 字節(jié)的 variance，一共 12 字節(jié)。如果是用類(lèi)似 SGD 的優(yōu)化器，可以不存 variance，只需要 8 字節(jié)。

正向傳播的中間狀態(tài)（activation）是反向傳播時(shí)計(jì)算梯度必需的，而且跟 batch size 成正比。Batch size 越大，每次讀取模型參數(shù)內(nèi)存能做的計(jì)算就越多，這樣對(duì) GPU 內(nèi)存帶寬的壓力就越小。可是不要忘了，正向傳播的中間狀態(tài)數(shù)量是跟 batch size 成正比的，GPU 內(nèi)存容量又會(huì)成為瓶頸。

大家也發(fā)現(xiàn)正向傳播中間狀態(tài)占的內(nèi)存太多了，可以玩一個(gè)用算力換內(nèi)存的把戲，就是不要存儲(chǔ)那么多梯度和每一層的正向傳播的中間狀態(tài)，而是在計(jì)算到某一層的時(shí)候再臨時(shí)從頭開(kāi)始重算正向傳播的中間狀態(tài)，這樣這層的正向傳播中間狀態(tài)就不用保存了。如果每一層都這么干，那么就只要 2 個(gè)字節(jié)來(lái)存這一層的梯度。但是計(jì)算中間狀態(tài)的算力開(kāi)銷(xiāo)會(huì)很大。因此實(shí)際中一般是把整個(gè) Transformer 分成若干組，一組有若干層，只保存每組第一層的中間狀態(tài)，后面的層就從該組第一層開(kāi)始重新計(jì)算，這樣就平衡了算力和內(nèi)存的開(kāi)銷(xiāo)。

如果還是算不清楚，可以讀讀這篇論文：Reducing Activation Recomputation in Large Transformer Models。

當(dāng)然有人說(shuō)，GPU 內(nèi)存放不下可以換出到 CPU 內(nèi)存，但是就目前的 PCIe 速度，換出到 CPU 內(nèi)存的代價(jià)有時(shí)候還不如在 GPU 內(nèi)存里重算。如果是像 Grace Hopper 那種極高帶寬的統(tǒng)一內(nèi)存，那么換入換出倒是一個(gè)不錯(cuò)的主意，不管訓(xùn)練的正向傳播中間狀態(tài)還是 KV Cache，都有很多優(yōu)化的空間。

Pipeline parallelism（流水線并行）

既然一塊 GPU 放不下，用多塊 GPU 總行了吧？這就是?model parallelism（模型并行），可以大致分為 pipeline parallelism 和 tensor parallelism。

大家最容易想到的并行方式就是?pipeline parallelism，模型不是有很多層嗎，那就分成幾組，每組算連續(xù)的幾層，穿成一條鏈。

Pipeline Parallelism 示意圖，來(lái)源：Colossal AI

這樣就有個(gè)問(wèn)題，一條鏈上只有一個(gè) GPU 在干活，剩下的都在干等。當(dāng)然聰明的你一定也想到了，既然叫 pipeline，那就可以流水線處理，可以把一個(gè) batch 分為若干個(gè) mini-batch，每個(gè) mini-batch 分別計(jì)算。

Pipeline Parallelism 示意圖，來(lái)源：GPipe

這可好，是不是把 pipeline 搞的越深越好，每個(gè) GPU 只算一層？

首先，正向傳播中間狀態(tài)（activation）的存儲(chǔ)容量會(huì)成倍增加，加劇內(nèi)存容量不足的問(wèn)題。比如流水線的第一級(jí)算出了正向傳播的中間狀態(tài)，如果有 N 個(gè)流水級(jí)，那就要正向流過(guò)后面的 N - 1 個(gè)流水級(jí)，再等反向傳播 N - 1 個(gè)流水級(jí)，也就是 2N - 2 輪之后才能用到這個(gè)正向傳播的中間狀態(tài)。不要忘了每一輪都會(huì)產(chǎn)生這么多中間狀態(tài)，因此一共是保存了 2N - 1 個(gè)中間狀態(tài)。如果 N 比較大，這個(gè)存儲(chǔ)容量是非常恐怖的。

其次，pipeline 的相鄰流水級(jí)（pipeline stage）之間是要通信的，級(jí)數(shù)越多，通信的總數(shù)據(jù)量和總時(shí)延就越高。

最后，要讓這樣的 pipeline 流起來(lái)，batch size 需要等于 Transformer 里面的層數(shù)，一般是幾十，再乘以 data parallelism 的并行數(shù)，batch size 會(huì)很大，影響模型收斂的速度或模型收斂后的精度。

因此，在內(nèi)存容量足夠的情況下，最好還是少劃分一些流水級(jí)。

對(duì)于 LLaMA-2 70B 模型，模型參數(shù)需要 140 GB，反向傳播的梯度需要 140 GB，優(yōu)化器的狀態(tài)（如果用 Adam）需要 840 GB。

正向傳播的中間狀態(tài)跟 batch size 和選擇性重新計(jì)算的配置有關(guān)，我們?cè)谒懔蛢?nèi)存之間取一個(gè)折中，那么正向傳播的中間狀態(tài)需要 token 長(zhǎng)度 * batch size * hidden layer 的神經(jīng)元數(shù)量 * 層數(shù) * (10 + 24/張量并行度) 字節(jié)。假設(shè) batch size = 8，不用張量并行，那么 LLaMA-2 70B 模型的正向傳播中間狀態(tài)需要 4096 * 8 * 8192 * 80 * (10 + 24) byte = 730 GB，是不是很大？

總共需要 140 + 140 + 840 + 730 = 1850 GB，這可比單放模型參數(shù)的 140 GB 大多了。一張 A100/H100 卡也只有 80 GB 內(nèi)存，這就至少要 24 張卡；如果用 4090，一張卡 24 GB 內(nèi)存，就至少需要 78 張卡。

LLaMA-2 模型一共就只有 80 層，一張卡放一層，是不是正好？這樣就有 80 個(gè)流水級(jí)，單是流水線并行就有 80 個(gè)并行的 batch 才能填滿(mǎn)流水線。

這樣，正向傳播的中間狀態(tài)存儲(chǔ)就會(huì)大到無(wú)法忍受，這可是 80 * 2 = 160 輪的中間狀態(tài)，翻了 160 倍。就算是使用選擇性重新計(jì)算，比如把 80 層分成 8 組，每組 10 層，中間狀態(tài)存儲(chǔ)仍然是翻了 16 倍。

除非是用最極端的完全重新計(jì)算，反向傳播到每一層都重新從頭開(kāi)始計(jì)算正向傳播的中間結(jié)果，但這樣計(jì)算開(kāi)銷(xiāo)可是隨模型層數(shù)平方級(jí)別的增長(zhǎng)，第 1 層算 1 層，第 2 層算 2 層，一直到第 80 層算 80 層，一共算了 3240 層，計(jì)算開(kāi)銷(xiāo)可是比正常算一次 80 層翻了 40 倍，這還能忍？

中間狀態(tài)存儲(chǔ)的問(wèn)題就已經(jīng)夠大了，再看這 2048 張卡之間的通信開(kāi)銷(xiāo)。按照一張卡放一層，并且用不同的輸入數(shù)據(jù)讓它完全流水起來(lái)的做法，這 2048 張卡分別在計(jì)算自己的 mini-batch，可以認(rèn)為是獨(dú)立參與到 data parallelism 里面了。前面講過(guò)，在數(shù)據(jù)并行中，每一輪需要傳輸?shù)氖撬?jì)算出的梯度和全局平均后的梯度，梯度的數(shù)據(jù)量就等于模型的參數(shù)數(shù)量。

把 70B 模型分成 80 層，每一層大約有 1B 參數(shù)，由于優(yōu)化器用的是 32 bit 浮點(diǎn)數(shù)，這就需要傳輸 4 GB 數(shù)據(jù)。那么一輪計(jì)算需要多久呢？總的計(jì)算量 = batch size * token 數(shù)量 * 6 * 參數(shù)量 = 8 * 4096 * 6 * 1B = 196 Tflops，在 4090 上如果假定算力利用率 100%，只需要 0.6 秒。而通過(guò) PCIe Gen4 傳輸這 4 GB 數(shù)據(jù)就已經(jīng)至少需要 0.12 秒了，還需要傳兩遍，也就是先傳梯度，再把平均梯度傳過(guò)來(lái)，這 0.24 秒的時(shí)間相比 0.6 秒來(lái)說(shuō)，是占了比較大的比例。

當(dāng)然我們也可以做個(gè)優(yōu)化，讓每個(gè) GPU 在 pipeline parallelism 中處理的 80 組梯度數(shù)據(jù)首先在內(nèi)部做個(gè)聚合，這樣理論上一個(gè) training step 就需要 48 秒，通信占用的時(shí)間不到 1 秒，通信開(kāi)銷(xiāo)就可以接受了。當(dāng)然，通信占用時(shí)間不到 1 秒的前提是機(jī)器上插了足夠多的網(wǎng)卡，能夠把 PCIe Gen4 的帶寬都通過(guò)網(wǎng)絡(luò)吐出去，否則網(wǎng)卡就成了瓶頸。假如一臺(tái)機(jī)器上插了 8 塊 GPU，這基本上需要 8 塊 ConnectX-6 200 Gbps RDMA 網(wǎng)卡才能滿(mǎn)足我們的需求。

最后再看 batch size，整個(gè) 2048 張卡的集群跑起來(lái)，每個(gè) GPU 的 mini-batch 我們剛才設(shè)置為 8，那可真是 batch size = 16384，已經(jīng)是大規(guī)模訓(xùn)練中比較大的 batch size 了，如果再大，可能就影響模型的收斂速度或收斂后的精度了。

因此，單純使用流水線并行和數(shù)據(jù)并行訓(xùn)練大模型的最大問(wèn)題在于流水線并行級(jí)數(shù)過(guò)多，導(dǎo)致正向傳播中間狀態(tài)（activation）存儲(chǔ)容量不足。

Tensor parallelism（張量并行）

那就沒(méi)辦法了嗎？我們還有最后一招，就是 Tensor parallelism（張量并行）。它也是模型并行的一種，但不像流水線并行那樣是在模型的層間劃分，而是在模型的層內(nèi)劃分，也就是把一層內(nèi)的 attention 計(jì)算和 Feed Forward Network 劃分到多個(gè) GPU 上處理。

有了張量并行，就可以緩解 GPU 放不下模型導(dǎo)致的流水級(jí)太多的問(wèn)題。分到 80 個(gè) GPU 才能放下的模型，如果用單機(jī) 8 卡張量并行，就只需要?jiǎng)澐?10 個(gè)流水級(jí)。同時(shí)，張量并行還可以降低 batch size，因?yàn)閺埩坎⑿械膸讉€(gè) GPU 是在算同一個(gè)輸入數(shù)據(jù)。

Tensor、Pipeline、Data 三種并行方式從模型層內(nèi)、模型層間、訓(xùn)練數(shù)據(jù)三個(gè)維度上劃分計(jì)算空間，來(lái)源：DeepSpeed

Attention 的計(jì)算過(guò)程是比較容易并行的，因?yàn)橛卸鄠€(gè) head，用來(lái)關(guān)注輸入序列中的不同位置的，那么把這些 head 分別拆開(kāi)就行了。

Attention 的計(jì)算過(guò)程，來(lái)源：The Illustrated Transformer

但是我們做任何并行計(jì)算的時(shí)候都不要忘記通信開(kāi)銷(xiāo)。

每個(gè) head 里面的 Q、K 兩個(gè)矩陣的大小是 batch size * token 長(zhǎng)度 * key 的大小，V 矩陣的大小是 batch size * token 長(zhǎng)度 * value 的大小。key/value 的大小一般等于 embedding size / heads 數(shù)量，例如在 LLaMA-2 70B 中就是 8192 / 64 = 128，矩陣大小是 batch size * 4096 * 8192 / 64（注意，這只是一個(gè) head 的）。而 Q、K、V 參數(shù)矩陣在每個(gè) head 上的大小是 embedding size * embedding size / heads num = 8192 * 8192 / 64。

我們前面推導(dǎo)過(guò)，正向的計(jì)算量基本上就是每個(gè) token 過(guò)一遍所有參數(shù)的計(jì)算量，2 * 3 (Q, K, V) * batch size * token 長(zhǎng)度 * 參數(shù)個(gè)數(shù) = 2 * 3 * batch size * 4096 * 8192 * 8192 / 64。可以跟矩陣的大小對(duì)一下，看看有沒(méi)有算錯(cuò)。

那么通信量是多少呢？輸出矩陣 Z 是由每個(gè) head 拼起來(lái)的，每個(gè) head 的大小是 batch size * token 長(zhǎng)度 * embedding size / heads num = batch size * 4096 * 8192 / 64。輸入矩陣 X 的大小是 batch size * token 長(zhǎng)度 * embedding size = batch size * 4096 * 8192。注意這里的 X 大小跟所有 heads 合并在一起后的 Z 大小是一致的，而我們?cè)谶@里算的是每個(gè) head 的 Z 大小。這里的單位是參數(shù)數(shù)量，如果按照字節(jié)算，還要乘以每個(gè)參數(shù)的大小。

如果我們采用最極端的方式，每個(gè) head 交給一個(gè) GPU 去算，那么計(jì)算量和通信量的比例是多少？大概是 2 * 3 * embedding size / heads num / bytes per param = 2 * 3 * 8192 / 64 / 2 = 384。代入 4090 的 330 Tflops，如果想讓通信不成為瓶頸，那么通信帶寬至少需要是 330T / 384 = 859 GB/s，發(fā)送接收雙向還得乘以 2，就是 1.7 TB/s。太大了，遠(yuǎn)遠(yuǎn)超過(guò) PCIe Gen4 x16 的 64 GB/s，就算 NVLink 的 900 GB/s 都撐不住。

所以，tensor parallelism 不能切得太細(xì)，每個(gè) GPU 需要多算幾個(gè) heads。如果每個(gè) GPU 多算幾個(gè) attention heads，輸入矩陣 X 就是這些 heads 共享的了，因此輸入矩陣的通信開(kāi)銷(xiāo)就被多個(gè) heads 平攤了，計(jì)算量和通信量的比例就可以提高。

還是按照 4090 的算力 / 單向通信帶寬 = 330T / (64GB/s / 2) 來(lái)算，計(jì)算量和通信量的比例最少需要是 10000，也就是 2 * 3 * (embedding size / 張量并行 GPU 數(shù)量) / bytes per param = 2 * 3 * 8192 / 張量并行 GPU 數(shù)量 / 2 >= 10000，解得：張量并行 GPU 數(shù)量 <= 2.4。也就是告訴你，要是用了張量并行，最多用 2 個(gè) GPU，如果用更多的 GPU，算力就肯定跑不滿(mǎn)理論值。這讓我怎么玩？

但是，如果把 H100 的參數(shù)代入進(jìn)去，馬上就不一樣了。H100 的峰值算力是 1979 Tflops，NVLink 雙向帶寬是 900 GB/s，計(jì)算量和通信量的比例最少需要是 4400，也就是 2 * 3 * (embedding size / 張量并行 GPU 數(shù)量) / bytes per param = 2 * 3 * 8192 / 張量并行 GPU 數(shù)量 / 2 >= 4400，解得：張量并行 GPU 數(shù)量 <= 5.5，也就是單機(jī) 8 卡做張量并行，如果算力跑滿(mǎn)，網(wǎng)絡(luò)會(huì)成為瓶頸。可以看到，即使對(duì)于 900 GB/s 這么快的 NVLink，在巨大的算力面前，都容易出現(xiàn)茶壺里煮餃子倒不出來(lái)的情況。當(dāng)然，采用更優(yōu)的并行切分方式可以節(jié)約一些網(wǎng)絡(luò)通信開(kāi)銷(xiāo)。

閹割版的 H800 相比 H100 卡的就是網(wǎng)絡(luò)帶寬，把網(wǎng)絡(luò)帶寬從 900 GB/s 降到 400 GB/s 了。我們?cè)俅胍淮危?jì)算量和通信量比例最少需要是 10000，那么張量并行 GPU 數(shù)量 <= 2.4，跟 4090 一個(gè)貨色了。這樣單機(jī) 8 卡做張量并行，就會(huì)導(dǎo)致網(wǎng)絡(luò)成為瓶頸。當(dāng)然，計(jì)算量 1979 Tflops 是理論值，并行切分方式也可以?xún)?yōu)化，因此實(shí)際訓(xùn)練 70B 的模型 8 卡 H800 網(wǎng)絡(luò)不一定真的是瓶頸。這就是 H800 精準(zhǔn)打擊大模型訓(xùn)練，讓張量并行過(guò)得不舒服。

Feed Forward Network 的計(jì)算過(guò)程，雖然這是 encoder 的，但 decoder 也差不多，來(lái)源：Step-by-Step Illustrated Explanations of Transformer

如果在 Feed Forward Network 這里做張量并行，也是可以做類(lèi)似的推導(dǎo)，在這里就不贅述了。大凡神經(jīng)網(wǎng)絡(luò)里的矩陣乘法，M*N 的矩陣乘上 N*K 的矩陣，總的計(jì)算量是 M*N*K，輸入輸出的總大小是 (M*N + N*K)，多摞幾個(gè)矩陣那也是常數(shù)（就像 Q、K、V），也就是計(jì)算和通信的比例跟矩陣的邊長(zhǎng)（dimension）是一個(gè)量級(jí)的。

這么分析完了，如果你是要做大規(guī)模大模型訓(xùn)練，你還會(huì)買(mǎi) A100/H100/H800 的 PCIe 版嗎？PCIe Gen5 雖然比 Gen 4 快一倍，但對(duì) H100 而言，計(jì)算量和通信量的比例仍然最少需要是 1979T / (128G / 2) = 30000，解出來(lái)張量并行 GPU 數(shù)量 <= 0.8，只要用了張量并行，就是損失算力的！

等到 H100 的下一代出來(lái)了，比如 GH200，算力又翻了一倍，NVLink 還是 900 GB/s，這時(shí)候 NVLink 就也開(kāi)始有點(diǎn)吃力了。所以 GH200 不失時(shí)機(jī)的推出了統(tǒng)一大內(nèi)存，號(hào)稱(chēng) 144 TB，就是為了更好的做換入換出，用內(nèi)存換網(wǎng)絡(luò)通信。如果禁令保持不變，國(guó)內(nèi)版本還是卡住 400 GB/s 的通信，那性能差距會(huì)有多大？

上面的推導(dǎo)當(dāng)然都是簡(jiǎn)化的，實(shí)際上可能不會(huì)這么夸張，但數(shù)量級(jí)是差不多的。

訓(xùn)練部分小結(jié)

4090 不容易做大模型訓(xùn)練的原因除了前面分析的內(nèi)存小，通信慢，license 不支持?jǐn)?shù)據(jù)中心，還有很多其他問(wèn)題。

比如，A100/H100 支持 ECC 顯存容錯(cuò)，據(jù)說(shuō) 4090 也支持 ECC，但是不知道故障率會(huì)不會(huì)比 A100/H100 更高。不要小看了容錯(cuò)，2048 張卡的集群就算每張卡 1 個(gè)月出一次故障，平均 20 分鐘就會(huì)有一張卡出故障！要是沒(méi)有自動(dòng)化的故障恢復(fù)方式，煉丹師就別想睡覺(jué)了。

就算是自動(dòng)從上一個(gè) checkpoint 恢復(fù)，這可是要時(shí)間的，如果不考慮丟棄故障 GPU 梯度這種比較暴力的方式，當(dāng)前這個(gè) step 就算是白算了，還要從上一個(gè) checkpoint 加載梯度，一般需要 10 來(lái)分鐘的時(shí)間才能搞定。這樣，每 20 分鐘就浪費(fèi) 10 分鐘，這 10 分鐘恢復(fù)過(guò)程中可能又有新的卡故障，總的算下來(lái)要浪費(fèi)掉一半的有效算力。

因此，保持大規(guī)模訓(xùn)練集群的低故障率是非常重要的，這些 GPU 卡都非常金貴，可不能像挖礦機(jī)房那樣，動(dòng)不動(dòng)就過(guò)熱死機(jī)了。

據(jù)說(shuō) 3090 是支持 NVLink 的，但 4090 就把 NVLink 給砍掉了。更老的卡，甚至還有支持 PCIe P2P 的，現(xiàn)在也都被砍掉了。誰(shuí)感興趣可以測(cè)一測(cè) 3090 的 NVLink 性能怎么樣，是不是真的能達(dá)到標(biāo)稱(chēng)的 600 GB/s，如果真的能達(dá)到的話(huà)，是否又可以用來(lái)做大模型訓(xùn)練了呢。

我們年會(huì)的時(shí)候，海哥講了個(gè)段子，我們找老婆都希望又漂亮，又能掙錢(qián)，還一心一意愛(ài)自己。可同時(shí)滿(mǎn)足這三個(gè)條件的老婆就很難找到了。類(lèi)似的，在分布式系統(tǒng)中，我們都希望性能又高，通用性又強(qiáng)，成本還低。這三個(gè)條件的交集也很小。海哥講到這里，譚博補(bǔ)充了一句，同時(shí)滿(mǎn)足這三個(gè)條件的分布式系統(tǒng)根本就不存在。

Tensor、Pipeline、Data Parallelism 就像是這樣的不可能三角，相互牽制，只要集群規(guī)模夠大，模型結(jié)構(gòu)仍然是 Transformer，就很難逃出內(nèi)存容量和網(wǎng)絡(luò)帶寬的魔爪。

大模型推理為什么 4090 很香

推理和訓(xùn)練有什么區(qū)別？

首先，訓(xùn)練不僅需要存儲(chǔ)模型參數(shù)，還需要存儲(chǔ)梯度、優(yōu)化器狀態(tài)、正向傳播每一層的中間狀態(tài)（activation），后面幾個(gè)比參數(shù)更大，對(duì)模型內(nèi)存的需求量也更大。

其次，訓(xùn)練任務(wù)是一個(gè)整體，流水線并行的正向傳播中間結(jié)果是需要存下來(lái)給反向傳播用的。為了節(jié)約內(nèi)存而使用流水線并行，流水級(jí)越多，要存儲(chǔ)的中間狀態(tài)也就更多，反而加劇內(nèi)存的不足。而推理任務(wù)中的各個(gè)輸入數(shù)據(jù)之間并沒(méi)有關(guān)系，正向傳播每一層的中間狀態(tài)也不需要保存下來(lái)，因此流水線并行不需要存儲(chǔ)很多中間狀態(tài)。

首先我們需要計(jì)算一下推理需要多少算力。前面針對(duì)訓(xùn)練算力的估算，為了簡(jiǎn)單起見(jiàn)，忽略了兩個(gè)事情，首先是沒(méi)有考慮 KV Cache，其次是沒(méi)有考慮內(nèi)存帶寬。

KV Cache

什么是 KV Cache？對(duì)于每個(gè)輸入的 prompt，在計(jì)算第一個(gè) token 輸出的時(shí)候，每個(gè) token 的 attention 肯定是都要從頭計(jì)算。但是在后續(xù) token 的生成中，都需要計(jì)算 self-attention，也就是輸入 prompt 以及前面輸出的 token 的 attention。這是就需要用到前面每一個(gè) token 的 K 和 V，由于每一層的參數(shù)矩陣是不變的，此時(shí)只有剛生成的那個(gè) token 的 K 和 V 需要從頭計(jì)算，輸入 prompt 和之前生成的 token 的 K 和 V 其實(shí)是跟上一輪一樣的。

這時(shí)，我們就可以把每一層的 K、V 矩陣緩存起來(lái)，生成下一個(gè) token 的時(shí)候不再需要重新計(jì)算，這就是所謂的 KV Cache。Q 矩陣每次都不一樣，沒(méi)有緩存的價(jià)值。前面講的訓(xùn)練中的選擇性保存正向 activation 是個(gè)拿計(jì)算換內(nèi)存的把戲，這里的 KV Cache 就是一個(gè)拿內(nèi)存換計(jì)算的把戲。

KV Cache 需要多少存儲(chǔ)容量呢？每一層，每個(gè) token 的 K、V 矩陣都是 embedding size 這么大，再乘上 token 數(shù)量和 batch size，就是這一層的 KV Cache 所需的存儲(chǔ)容量了。一定要記住 batch size，在正向和反向傳播的幾乎所有階段，都不會(huì)涉及到對(duì) batch size 中各個(gè) sample 的合并處理，因此它始終是存儲(chǔ)量和計(jì)算量計(jì)算中的一個(gè)系數(shù)。

例如，如果 batch size = 4，在 LLaMA 2 70B 中，假設(shè)輸入和輸出的 token 數(shù)量達(dá)到了模型的極限 4096，80 層的 KV Cache 一共需要 2 (K, V) * 80 * 8192 * 4096 * 8 * 2B = 80 GB。如果 batch size 更大，那么 KV Cache 占據(jù)的空間將超過(guò)參數(shù)本身占的 140 GB。

KV Cache 能省下來(lái)多少計(jì)算量？每一層計(jì)算 K、V 矩陣一共需要 2 (K, V) * 2 (mult, add) * embedding size * embedding size = 4 * 8192 * 8192 這么多計(jì)算量，乘以之前輸入過(guò)的 token 數(shù)量、層數(shù)和 batch size，就是 4096 * 80 * 8 * 4 * 8192 * 8192 = 640 Tflops。相當(dāng)于每存儲(chǔ) 1 個(gè)字節(jié)，節(jié)約了 16K 次計(jì)算，還是很劃算的。

事實(shí)上，KV Cache 節(jié)約的遠(yuǎn)遠(yuǎn)不止這些。計(jì)算 K、V 矩陣的過(guò)程是個(gè)典型的內(nèi)存密集型過(guò)程，它需要加載每一層的 K、V 參數(shù)矩陣。也就是如果不做任何緩存，假設(shè) prompt 長(zhǎng)度很短而輸出長(zhǎng)度接近 token 的最大長(zhǎng)度 4096，到了最后一個(gè) token 的時(shí)候，單是重復(fù)計(jì)算前面每個(gè) token 的 K、V 矩陣，就需要讀取內(nèi)存 4096 * 80 * 2 * 8192 * 8192 = 40T 次，每次 2 個(gè)字節(jié)，要知道 H100 的內(nèi)存帶寬只有 3.35 TB/s，4090 更是只有 1 TB/s，這單是最后一個(gè) token 就得耗掉一張卡幾十秒的時(shí)間來(lái)做重復(fù)計(jì)算。這樣，token 的輸出就會(huì)越來(lái)越慢，整個(gè)輸出時(shí)間是輸出長(zhǎng)度平方級(jí)別的，根本沒(méi)法用。

推理是計(jì)算密集還是存儲(chǔ)密集

接下來(lái)我們就可以計(jì)算推理所需的計(jì)算量了。總的算力很好算，前面講過(guò)，大概就是?2 * 輸出 token 數(shù)量 * 參數(shù)數(shù)量 flops。如果想看細(xì)節(jié)，可以看下面這張圖，來(lái)源是這里。

Transformer 推理過(guò)程中每一步的矩陣形狀、所需算力和內(nèi)存訪問(wèn)量，來(lái)源：Lequn Chen，Dissecting Batching Effects in GPT Inference

但算力并不能說(shuō)明一切，模型還需要訪問(wèn) GPU 內(nèi)存，內(nèi)存帶寬也可能成為瓶頸。至少需要把參數(shù)從內(nèi)存里面讀出來(lái)吧？事實(shí)上，內(nèi)存帶寬的估算就這么簡(jiǎn)單，內(nèi)存訪問(wèn)量 = 參數(shù)數(shù)量 * 2 bytes。中間結(jié)果有一部分是可以放在緩存里面的，緩存放不下的部分也需要占內(nèi)存帶寬，我們先不算。

如果不做任何批量輸入，也就是模型專(zhuān)門(mén)服務(wù)一個(gè) prompt，batch size = 1，整個(gè) context 的長(zhǎng)度很短（例如只有 128），那么整個(gè)推理過(guò)程中，每載入一個(gè)參數(shù)（2 字節(jié)），就只進(jìn)行 128 次乘法和加法計(jì)算，那么計(jì)算 flops 和訪問(wèn)內(nèi)存 bytes 的比例就只有 128。基本上任何 GPU 在這種情況下都會(huì)變成 memory bound，時(shí)間都耗在加載內(nèi)存上了。

對(duì)于 4090 來(lái)說(shuō)，計(jì)算 flops 和內(nèi)存帶寬之比是 330 / 1 = 330；對(duì)于 H100 來(lái)說(shuō)，計(jì)算 flops 和內(nèi)存帶寬之比是 1979 / 3.35 = 590。也就是說(shuō)，如果 context 中的 token 數(shù)量小于 330 或者 590，那么內(nèi)存訪問(wèn)就會(huì)成為瓶頸。

雖然 LLaMA 2 的理論上限是 4096 個(gè) token，但很多輸入 prompt 用不了這么多，因此內(nèi)存訪問(wèn)是有可能成為瓶頸的。此時(shí)，就需要靠 batch size 來(lái)補(bǔ)足了。推理中的批量處理，就是把幾乎同時(shí)到達(dá)后端服務(wù)的 prompt 放到一起處理。不用擔(dān)心，batch 里面的不同 prompt 的處理是完全獨(dú)立的，不用擔(dān)心會(huì)互相干擾。但這些 prompt 的輸出是步調(diào)整齊劃一的，每一輪整個(gè) batch 中的每個(gè) prompt 都會(huì)輸出一個(gè) token，因此如果有的 prompt 先輸出完了，那就只能等其他的輸出結(jié)束，造成一定的算力浪費(fèi)。

有的人問(wèn)，批量處理所需的算力跟分別單獨(dú)處理所需的算力是一樣的呀，那推理時(shí)為什么需要批量處理？答案就在訪問(wèn)內(nèi)存的帶寬上。

如果同時(shí)到達(dá)服務(wù)器的 prompt 很多，是不是 batch size 越大越好？也不是，因?yàn)?KV Cache 的大小可是正比于 batch size 的，batch size 大了，KV Cache 占據(jù)的 GPU 內(nèi)存容量就很可觀，比如在 LLaMA-2 70B 中，每個(gè) prompt 都要占據(jù) 5 GB 的 KV Cache，如果 batch size 搞到 32，那么 KV Cache 就會(huì)占掉 160 GB 的 GPU 內(nèi)存，比參數(shù)都大了。

70B 推理需要多少?gòu)埧ǎ?/p>

總的存儲(chǔ)容量也很好算，推理的時(shí)候最主要占內(nèi)存的就是參數(shù)、KV Cache 和當(dāng)前層的中間結(jié)果。當(dāng) batch size = 8 時(shí)，中間結(jié)果所需的大小是 batch size * token length * embedding size = 8 * 4096 * 8192 * 2B = 0.5 GB，相對(duì)來(lái)說(shuō)是很小的。

70B 模型的參數(shù)是 140 GB，不管 A100/H100 還是 4090 都是單卡放不下的。那么 2 張 H100 夠嗎？看起來(lái) 160 GB 是夠了，但是剩下的 20 GB 如果用來(lái)放 KV Cache，要么把 batch size 壓縮一半，要么把 token 最大長(zhǎng)度壓縮一半，聽(tīng)起來(lái)是不太明智。因此，至少需要 3 張 H100。

對(duì)于 4090，140 GB 參數(shù) + 40 GB KV Cache = 180 GB，每張卡 24 GB，8 張卡剛好可以放下。

推理用流水線并行可以嗎？

推理使用流水線并行，最主要的問(wèn)題是串行處理的推理延遲，網(wǎng)絡(luò)延遲倒是小問(wèn)題。

首先是推理延遲。雖然流水線的不同階段可以塞進(jìn)不同的 prompt，但同一個(gè) prompt 的處理仍然永遠(yuǎn)在單個(gè) GPU 上輪轉(zhuǎn)，這樣相比 Tensor parallelism 而言，單個(gè) prompt 的延遲就增大了。

對(duì)于很小的 batch size，GPU 內(nèi)存帶寬是瓶頸，此時(shí)每張卡計(jì)算每個(gè) token 的時(shí)延就是 2 byte * 參數(shù)量 / 卡的數(shù)量 / 內(nèi)存帶寬，例如 8 卡 4090 跑 LLaMA-2 70B，就是 2 * 70G / 8 / 1 TB/s = 0.0175 秒。這里沒(méi)有考慮 KV Cache 帶來(lái)的節(jié)約。注意，8 張卡是串行處理的，因此每個(gè) token 的時(shí)延還要乘以 8，也就是 0.14 秒。每秒只能輸出 7 個(gè) token，對(duì)于 70B 這么小的模型來(lái)說(shuō)是有點(diǎn)慢了。

對(duì)于很大的 batch size，GPU 算力是瓶頸，此時(shí)每張卡計(jì)算每個(gè) token 的時(shí)延就是 batch size * 2 * 參數(shù)量 / 卡的數(shù)量 / 算力，例如 batch size = 1024，同樣的 8 卡例子，就是 1024 * 2 * 70G / 8 / 330 Tflops = 0.0543 秒。事實(shí)上，對(duì)于這么大的 batch size，KV Cache 和正向傳播的中間結(jié)果先把 GPU 內(nèi)存給吃滿(mǎn)了。

那么要平衡利用 GPU 算力和內(nèi)存帶寬，batch size 需要是多少呢？這就是 2 byte * 參數(shù)量 / 卡的數(shù)量 / 內(nèi)存帶寬 = batch size * 2 * 參數(shù)量 / 卡的數(shù)量 / 算力，左右兩邊參數(shù)量和卡的數(shù)量互相抵消，得到 batch size = 算力 / 內(nèi)存帶寬。對(duì)于 4090，就是 330 / 1 = 330；對(duì)于 H100，就是 1979 / 3.35 = 590。也就是說(shuō)，對(duì) 4090 而言，batch size 小于 330 的時(shí)候 GPU 內(nèi)存帶寬是瓶頸，大于 330 的時(shí)候 GPU 算力是瓶頸。當(dāng) batch size = 330 的時(shí)候，理想情況下，內(nèi)存帶寬和算力恰好都打滿(mǎn)，每張卡處理每個(gè) token 的時(shí)間就是 17.5 ms。

其次是網(wǎng)絡(luò)延遲。流水線并行相比張量并行的優(yōu)點(diǎn)就是網(wǎng)絡(luò)傳輸量小，流水級(jí)之間只需要傳輸 batch size * embedding size 這么多數(shù)據(jù)。例如 batch size = 8，embedding size = 8192，只需要傳輸 128 KB 數(shù)據(jù)，在 32 GB/s 的 PCIe Gen4 x16 上，只需要 4 us 就可以傳輸完成。當(dāng)然，還需要考慮到通信庫(kù)本身的開(kāi)銷(xiāo)，加上 4090 不支持 GPU 之間 P2P 傳輸，需要通過(guò) CPU 中轉(zhuǎn)，實(shí)際上需要幾十 us 的時(shí)間，相比計(jì)算部分動(dòng)輒幾十 ms 的時(shí)延，可以忽略不計(jì)。

即使 batch size = 330，這 5.28 MB 數(shù)據(jù)在 PCIe 上也只需要傳輸 0.16 ms，相比計(jì)算部分的 17.5 ms 仍然可以忽略不計(jì)。

如果可以忍受流水線并行的推理延遲，甚至可以用多臺(tái)主機(jī)來(lái)做流水線并行。我們假設(shè)主機(jī)間只有 1 Gbps 的普通以太網(wǎng)絡(luò)，每臺(tái)主機(jī)只有一張 4090。對(duì)于 batch size = 1，16 KB 數(shù)據(jù)需要 0.25 ms 才能傳輸完成，再加上 0.25 ms 兩端網(wǎng)絡(luò)協(xié)議棧的處理時(shí)間，每個(gè)流水級(jí)就需要 0.5 ms 的時(shí)延，8 張卡花在通信上的時(shí)間只有 4 ms，相比整體計(jì)算時(shí)延 140 ms 來(lái)說(shuō)可以忽略，不會(huì)顯著影響系統(tǒng)的推理延遲。

當(dāng) batch size 很小時(shí)，流水線推理中的網(wǎng)絡(luò)流量是突發(fā)性（bursty）的，每過(guò) 18 ms 只會(huì)進(jìn)行 0.25 ms 數(shù)據(jù)傳輸，只有 1/72 的占空比，不用擔(dān)心流水線推理把局域網(wǎng)全部給占滿(mǎn)了，搞得沒(méi)法正常上網(wǎng)了。

如果為了充分利用算力，把 batch size 設(shè)置得很大，比如 330，那么 16 KB * 330 = 5.28 MB 數(shù)據(jù)需要傳輸 41 ms，8 張卡花在通信上的時(shí)間高達(dá) 0.33 秒，這樣就只有 3 token/s 的輸出速度了，難以忍受。因此，如果用主機(jī)間通信來(lái)做流水線并行，主機(jī)間又沒(méi)有很高的通信帶寬，就勢(shì)必需要犧牲一定的吞吐量。

例如，我們?cè)O(shè)置輸出速度不小于 5 token/s，這時(shí)留給通信的時(shí)間是 60 ms，每個(gè)流水級(jí)至多 7.5 ms，1 Gbps 網(wǎng)絡(luò)可以傳輸 960 KB 數(shù)據(jù)，這時(shí) batch size 至多設(shè)置為 60，也就是這 8 張 4090 的總吞吐量是 2400 token/s。此時(shí)的有效算力利用率只有不到 20%。

最近有一個(gè)比較火的 Petals 開(kāi)源項(xiàng)目，就是利用流水線并行，把 GPU 做成了一個(gè)類(lèi)似 BitTorrent 的分布式網(wǎng)絡(luò)。雖然推理延遲確實(shí)比較高，但至少說(shuō)明了分布式 GPU 推理的可行性。

推理用張量并行怎么樣？

前面講到，流水線并行的最大缺點(diǎn)是 GPU 串行處理，延遲較高，導(dǎo)致輸出 token 比較慢。而張量并行的最大缺點(diǎn)是傳輸數(shù)據(jù)量大，網(wǎng)絡(luò)帶寬低的設(shè)備不一定 hold 得住。

但是推理要傳輸?shù)臄?shù)據(jù)量跟訓(xùn)練要傳輸?shù)臄?shù)據(jù)量可不是一回事啊！推理只需要傳輸正向傳播的中間結(jié)果（activation），而訓(xùn)練還需要傳輸所有參數(shù)的梯度，梯度才是數(shù)據(jù)量的大頭。

在推理中，如果使用張量并行，Transformer 的每一層都需要傳輸把自己負(fù)責(zé)的結(jié)果向量（大小為 batch size * embedding size / num GPUs）廣播給其他所有 GPU，并接受來(lái)自所有其他 GPU 廣播來(lái)的數(shù)據(jù)。計(jì)算 attention 的時(shí)候需要傳輸一次，計(jì)算 feed-forward network 的時(shí)候又需要傳輸一次，也就是總共需要傳輸 2 * 層數(shù)這么多次。

每次發(fā)送就是 batch size * embedding size（發(fā)送和接收是不同的方向，不能算兩次），對(duì)于 batch size = 1, embedding size = 8192，只需要傳輸 16 KB 數(shù)據(jù)，在 32 GB/s 的 PCIe Gen4 上傳輸只需要 1 us。當(dāng)然，考慮到前面討論的 CPU 中轉(zhuǎn)開(kāi)銷(xiāo)，還是需要大約 30 us 的。一共 160 次傳輸，需要 4.8 ms。

我們?cè)倏紤]計(jì)算的開(kāi)銷(xiāo)。還是考慮 batch size = 1 的情形，GPU 內(nèi)存帶寬是瓶頸，此時(shí)每張卡計(jì)算每個(gè) token 的時(shí)延就是 2 byte * 參數(shù)量 / 卡的數(shù)量 / 內(nèi)存帶寬，代入我們前面的數(shù)值，仍然是 17.5 ms。但是這里 8 張卡是并行處理的，因此總的處理時(shí)長(zhǎng)就是計(jì)算時(shí)間 + 通信時(shí)間 = 17.5 ms + 4.8 ms = 22.3 ms。這就意味著每秒可以生成 45 個(gè) token，這個(gè) token 生成速度已經(jīng)很不錯(cuò)了，至少人類(lèi)的閱讀速度是很難趕上生成的速度了。

如果 batch size 更大會(huì)怎樣？例如 batch size = 330，把 GPU 算力和內(nèi)存帶寬都充分利用起來(lái)，每次需要傳輸?shù)臄?shù)據(jù)量是 330 * 8192 * 2 = 5.4 MB，在 32 GB/s 的 PCIe Gen4 上需要 0.17 ms。一共 160 次傳輸，就是 27 ms。這下網(wǎng)絡(luò)通信開(kāi)銷(xiāo)成了延遲的大頭，總處理時(shí)長(zhǎng)為 27 + 17.5 = 44.5 ms，每秒只能生成 22 個(gè) token 了，但也不算慢。

注意，不管用多少個(gè) GPU 做并行推理，只要用的是張量并行，網(wǎng)絡(luò)傳輸?shù)目倲?shù)據(jù)量是相同的，因此增加 GPU 的數(shù)量只能加速計(jì)算，不能加速通信。

因此，A100/H100 的 NVLink 在降低推理延遲方面還是有很大作用的。如果用 A100/H100，取 batch size = 590 達(dá)到算力和帶寬的平衡利用，這 9.44 MB 數(shù)據(jù)只需要 9.44 MB / 450 GB/s = 0.02 ms。一共 160 次傳輸，也只有 3.2 ms。由于內(nèi)存帶寬大了，計(jì)算時(shí)間也可以大幅縮短，例如 H100 的計(jì)算時(shí)間為 2 * 70G / 8 / 3.35 TB/s = 5.2 ms。總處理時(shí)長(zhǎng)只有 5.2 ms + 3.2 ms = 8.4 ms，每秒可以生成 119 個(gè) token，非常棒！

可以說(shuō)，如果論單個(gè) prompt 的 token 生成速度，無(wú)論用多少塊 4090 也追不上 8 卡 H100。

用 4090 做推理的成本怎么樣？

對(duì)于推理，不管用流水線并行還是張量并行，batch size 不算高到太離譜的情況下內(nèi)存帶寬都是瓶頸。

假如 batch size 能夠高到把算力 100% 利用起來(lái)，并且還能解決 KV Cache 不夠大的問(wèn)題，能解決中間結(jié)果占用內(nèi)存過(guò)多的問(wèn)題，那么這 8 張 4090 可以達(dá)到多少吞吐量？

當(dāng)然，這兩個(gè)問(wèn)題都不好解決，因此推理優(yōu)化才是一個(gè)熱門(mén)的研究領(lǐng)域，存在很多的 trade-off 和奇技淫巧。如果只是用標(biāo)準(zhǔn)的 PyTorch，那推理性能距離把算力 100% 利用起來(lái)還遠(yuǎn)得很吶。

假設(shè)都解決了，在張量并行的通信過(guò)程中我們可以利用 double buffer 做另外一個(gè) batch 的計(jì)算，也就是計(jì)算和通信并行，進(jìn)一步提高吞吐量。通信和計(jì)算分別是 27 ms 和 17.5 ms，傳輸?shù)?27 ms 是瓶頸，也就是每 27 ms 輸出一組 token，一個(gè) batch 330 個(gè) prompt，那這 8 張 4090 真是可以達(dá)到每秒 330 / 0.027 = 12.2K token 的吞吐量。

8 張 4090 的成本是 12800 美金，8 卡 PCIe Gen4 服務(wù)器本身要 2 萬(wàn)美金，加上網(wǎng)絡(luò)設(shè)備，平均每臺(tái) 4 萬(wàn)美金的設(shè)備成本。固定資產(chǎn)按照 3 年攤銷(xiāo)，每小時(shí) 1.52 美元。整機(jī)功耗大約 400W * 8 + 2 kW = 5 kW，按照 0.1 美元一度電算，每小時(shí) 0.5 美元。這 2 美元一小時(shí)的機(jī)器，滿(mǎn)打滿(mǎn)算能生成 12.2K * 3600 = 44M tokens，也就是說(shuō)?1 美元能生成 22M tokens。

是不是比 GPT-3.5 Turbo 的 $0.002 / 1K tokens，也就是 1 美元 0.5M tokens?便宜 44 倍？當(dāng)然，賬不能這么算。

首先，GPU 的算力利用率到不了 100%；

其次，如同所有 SaaS 服務(wù)一樣，用戶(hù)的請(qǐng)求數(shù)量有波峰有波谷，用戶(hù)是按量付費(fèi)的，平臺(tái)提供方可是不管有沒(méi)有人用都在燒錢(qián)的；

此外，每個(gè) batch 中不同 prompt 的長(zhǎng)度和響應(yīng) token 數(shù)量都不同，消耗的算力是 batch 中最大的那個(gè)，但收的錢(qián)是用戶(hù)實(shí)際用的 token 數(shù)；

再次，GPT-3.5 是 175B 的模型，比 70B 的 LLaMA 很可能推理成本更高；

最后，OpenAI 開(kāi)發(fā) GPT-3.5 是燒了不知道多少錢(qián)的，人家至少要賺回訓(xùn)練成本和研發(fā)人員的工資吧。

其實(shí) GPT-3.5 Turbo 的 $0.002 / 1K tokens 真的挺良心的，有的賣(mài) API 的，LLaMA-2 70B 都敢比 GPT-3.5 Turbo 賣(mài)得貴。

如果換成用 H100 做推理，重新算一下這筆賬。一張 H100 至少要 3 萬(wàn)美金，一臺(tái) 8 卡 H100 高配服務(wù)器加上配套的 IB 網(wǎng)絡(luò)，起碼要 30 萬(wàn)美金，同樣按照 3 年攤銷(xiāo)，每小時(shí) 11.4 美元。10 kW 功耗，電費(fèi)每小時(shí) 1 美元。一共 12.4 美元一小時(shí)。

這其實(shí)已經(jīng)是非常良心的價(jià)格了，你在任何云服務(wù)商都不可能租得到這么便宜的 8 卡 H100。所以說(shuō)從云服務(wù)商租卡賣(mài)沒(méi)有護(hù)城河的 SaaS 服務(wù)，比如開(kāi)源模型的推理 API，除非有一種提高推理性能的獨(dú)門(mén)絕技，很難賺得了什么大錢(qián)，二房東的生意不是這么好做的。

再算算這臺(tái) 8 卡 H100 機(jī)器的吞吐量，張量并行也采用傳輸和計(jì)算并行，H100 的通信比較快，因此計(jì)算是瓶頸，每 5.2 ms 可以輸出一組 token，一個(gè) batch 590 個(gè) prompt，滿(mǎn)打滿(mǎn)算可以達(dá)到每秒 590 / 0.0052 = 113K token 的吞吐量。理想情況下，一小時(shí)能生成 407M tokens，也就是 1 美元能生成 33M tokens，H100 這單位 token 的成本比 4090 還要低 30%。

為什么 8 卡 H100 機(jī)器是 4090 機(jī)器價(jià)格的 6 倍，性?xún)r(jià)比卻比 4090 高？因?yàn)橐粡?H100 的算力是 4090 的 6 倍，內(nèi)存帶寬是 4090 的 3.35 倍，當(dāng) batch size 夠大，算力達(dá)到瓶頸的時(shí)候，單卡的性能就是 6 倍。而且，H100 比 4090 的網(wǎng)絡(luò)帶寬強(qiáng)太多了，導(dǎo)致 4090 在張量并行中網(wǎng)絡(luò)通信成了瓶頸，浪費(fèi)了有效算力。因此，同樣的 8 卡機(jī)器吞吐量幾乎可以達(dá)到 4090 的 10 倍。雖然一張 H100 卡的價(jià)格是 4090 的 20 倍以上，但算上服務(wù)器本身的成本和電費(fèi)，整機(jī)的成本只是 6 倍左右。

用最便宜的設(shè)備搞出最高的推理性能

我們發(fā)現(xiàn)在 8 卡 4090 機(jī)器中，3 萬(wàn)美金的設(shè)備成本，GPU 卡只占了 1.28 萬(wàn)美金，不像 H100 機(jī)器那樣 GPU 成本占了大頭。還有辦法進(jìn)一步降低嗎？

如果我們可以忍受 5 token/s 的輸出速度，甚至可以利用流水線并行，用家用臺(tái)式機(jī)和 4090 攢出個(gè)推理集群來(lái)。

遙想我當(dāng)年在 MSRA 的時(shí)候，在一臺(tái)只用 1000 美金攢出來(lái)的機(jī)器上插了 10 塊 FPGA，做出個(gè)世界最快的 Key-Value Store。其實(shí)如果讓我去設(shè)計(jì)一個(gè)性?xún)r(jià)比最高的 4090 推理集群，有很多種方案可以嘗試：

用流水線并行，臺(tái)式機(jī) + 10 Gbps 網(wǎng)卡，足夠在 5 ms 內(nèi)傳輸 batch size = 330 的 5.28 MB 數(shù)據(jù)了，通信 40 ms，計(jì)算 140 ms，達(dá)到 5 token/s 的單 prompt 輸出速度，同時(shí)又能充分利用 4090 的算力。10 Gbps 的網(wǎng)卡和交換機(jī)都很便宜，Intel X710 網(wǎng)卡只要 150 美金，20 口交換機(jī)只要 1500 美金（每 8 個(gè)口 750 美金），一臺(tái)家用臺(tái)式機(jī) 700 美金，這只要 2 萬(wàn)美金就可以搞定原本需要 4 萬(wàn)美金的設(shè)備。

用張量并行，臺(tái)式機(jī) + 200 Gbps ConnectX-6 網(wǎng)卡，上 RoCE，可以把 batch size = 330 的 5.28 MB 數(shù)據(jù)在 0.22 ms 內(nèi)傳完，160 次傳輸是 35 ms，加上計(jì)算的 17.5 ms，一個(gè) token 52.5 ms，可以達(dá)到 19 token/s 的單 prompt 輸出速度，這個(gè)速度已經(jīng)不錯(cuò)了。網(wǎng)卡 1000 美金，200G 交換機(jī) 2 萬(wàn)美金 40 個(gè)端口，平均每 8 個(gè)端口 4000 美金，一臺(tái)家用臺(tái)式機(jī) 700 美金，這只要 3 萬(wàn)美金就能搞定原本 4 萬(wàn)美金的設(shè)備。

主機(jī)內(nèi)用張量并行，主機(jī)間用流水線并行，4 卡 PCIe Gen4 服務(wù)器主板只要 1000 美金而且能跑滿(mǎn) PCIe 帶寬（因?yàn)?8 卡就需要 PCIe switch 了，價(jià)格會(huì)貴很多），兩臺(tái)主機(jī)之間用 25 Gbps 網(wǎng)卡直連，主機(jī)內(nèi)張量并行的時(shí)延是 27 ms，主機(jī)間流水線并行只需 2 次 8 ms 的傳輸（注意 25G 的網(wǎng)絡(luò)帶寬是 4 張 GPU 卡共享的），加上兩次流水線計(jì)算各 17.5 ms，總共 78 ms，可以達(dá)到 13 token/s 的單 prompt 輸出速度。網(wǎng)卡 300 美金 * 2，服務(wù)器 3000 美金 * 2，這只要 1.95 萬(wàn)美金就可以搞定原本需要 4 萬(wàn)美金的設(shè)備。

2 萬(wàn)美金按照 3 年攤銷(xiāo)是每小時(shí) 0.76 美元。按照 0.1 美元/度的電價(jià)，每小時(shí)的電費(fèi)都要 0.5 美元，接近設(shè)備成本了，這有點(diǎn)挖礦的味道了。這 1.26 美元一小時(shí)的機(jī)器如果跑滿(mǎn)了 44M tokens 的吞吐量，1 美元能生成 35M tokens，終于趕上 8 卡 H100 的 33M token per dollar 了。

為什么 H100 以 20 倍于 4090 的 GPU 價(jià)格，9 倍的性能，卻仍然能在系統(tǒng)性?xún)r(jià)比上打個(gè)平手，首先是因?yàn)槟芎某杀靖停? 卡 H100 的功耗是 10 kW，但 9 臺(tái) 8 卡 4090 的功耗是 45 kW；其次是因?yàn)橹鳈C(jī)和網(wǎng)絡(luò)設(shè)備成本更低，一臺(tái) 8 卡 H100 準(zhǔn)系統(tǒng)雖然貴，但只占整機(jī)價(jià)格的 20% 左右；但 4090 因?yàn)榭ǘ啵窍?GPU 礦機(jī)那樣壓成本，只要還是用數(shù)據(jù)中心級(jí)的設(shè)備，準(zhǔn)系統(tǒng)價(jià)格就要占到 35% 以上。

其實(shí)，這個(gè)世界上不止有 A100/H100 和 4090，還有 A10 等計(jì)算卡和 3090 等游戲卡，還有 AMD 的 GPU 和很多其他廠商的 AI 芯片。H100 和 4090 大概率都不是性?xún)r(jià)比的最優(yōu)解，例如 A10 和 AMD GPU 的性?xún)r(jià)比有可能就更高。

我都想搞一個(gè)推理性?xún)r(jià)比挑戰(zhàn)賽，看誰(shuí)能用最便宜的設(shè)備搞出最強(qiáng)的推理吞吐量，同時(shí)延遲不能太高；或者用最便宜的設(shè)備搞出最低的推理延遲，同時(shí)吞吐量不能太低。

這一切都是在假設(shè)使用 LLaMA-2 70B 模型，沒(méi)有做量化壓縮的前提下。如果做了量化壓縮，那性能就更高，甚至在 Unified Memory 夠大的 MacBook Pro 上都能單機(jī)跑了。

License 問(wèn)題怎么辦？

我把這個(gè)問(wèn)題放到最后。NVIDIA Geforce driver 的 License 里寫(xiě)道：

No Datacenter Deployment. The SOFTWARE is not licensed for datacenter deployment, except that blockchain processing in a datacenter is permitted.

既然機(jī)器都是用臺(tái)式機(jī)攢起來(lái)的，這能叫 data center 嗎？還是叫礦場(chǎng)比較合適吧。人家也說(shuō)了，4090 用來(lái)做區(qū)塊鏈?zhǔn)窃试S的。

我有一個(gè)大膽的想法，如果未來(lái)的區(qū)塊鏈不再用挖礦來(lái)做 proof of work，而是用大模型推理來(lái)做 proof of work，這是不是很有意思？每個(gè)人買(mǎi)幾塊顯卡，接到礦池上，既可以自己用來(lái)玩游戲，閑時(shí)又可以貢獻(xiàn)算力。礦池直接就是個(gè)賣(mài)大模型推理 SaaS 服務(wù)的公司，提供前所未有的低價(jià) API。甚至需要大模型推理服務(wù)的人可以在區(qū)塊鏈里自己 P2P 玩起來(lái)，誰(shuí)要用大模型就付點(diǎn) gas。

當(dāng)然，目前的 proof of work 都是計(jì)算很復(fù)雜，驗(yàn)證很簡(jiǎn)單的。如果真用大模型推理做 proof of work，必須防止用戶(hù)隨意編造一個(gè)結(jié)果交上去。當(dāng)然這也是有解決方案的，就像 BitTorrent 和其他一些去中心化網(wǎng)絡(luò)一樣，采用信用機(jī)制，新人只能做驗(yàn)證別人計(jì)算結(jié)果的工作，積攢信用；老人每次算錯(cuò)了，都有比較嚴(yán)厲的懲罰。

從另一個(gè)角度看，家庭局域網(wǎng)絡(luò)的速度也越來(lái)越快，比如我家就自己部署了 10 Gbps 的網(wǎng)絡(luò)。家中的智能設(shè)備越來(lái)越多，算力越來(lái)越強(qiáng)。光纖入戶(hù)也越來(lái)越普遍，小區(qū)和城市的運(yùn)營(yíng)商機(jī)房里部署了越來(lái)越多的邊緣計(jì)算節(jié)點(diǎn)。前面我們用 1 Gbps 的網(wǎng)絡(luò)就足以把多臺(tái)主機(jī)上的 GPU 組成流水線并行，那么在未來(lái)的家庭高速網(wǎng)絡(luò)中，流水線并行甚至張量并行都將成為可能。

大多數(shù)搞 AI 推理的都只關(guān)心數(shù)據(jù)中心，忽略了家中的分布式算力。只要解決了安全、隱私和經(jīng)濟(jì)動(dòng)機(jī)問(wèn)題，我家的 Siri，也許就跑在鄰居家里的 GPU 上。

很多人都在說(shuō)要 democratize AI。但現(xiàn)在大模型平民化的最大障礙就是成本，而成本最大的來(lái)源又是 GPU 市場(chǎng)上計(jì)算卡和游戲卡價(jià)格的剪刀差。這并不是指責(zé)某家公司，其他做 AI 芯片的公司，AI 芯片的算力也并不便宜。畢竟芯片、軟件和生態(tài)的研發(fā)都是白花花的銀子。

就像本文開(kāi)頭提到的微軟給每臺(tái)服務(wù)器部署 FPGA 一樣，大規(guī)模量產(chǎn)的芯片價(jià)格就像沙子一樣。到時(shí)候，能限制大模型推理算力的就只有能源了，就像區(qū)塊鏈挖礦和通用 CPU 的云計(jì)算一樣，都在找最便宜的電力供應(yīng)。我在之前的一個(gè)采訪中就表示，長(zhǎng)期來(lái)看，能源和材料可能是制約大模型發(fā)展的關(guān)鍵。讓我們期待廉價(jià)的大模型走進(jìn)千家萬(wàn)戶(hù)，真正改變?nèi)藗兊纳睢?/p>

編輯：黃飛

閱讀全文

FPGA(591969) FPGA(591969)
gpu(126254) gpu(126254)
內(nèi)存(72585) 內(nèi)存(72585)
A100(7574) A100(7574)
大模型(805) 大模型(805)

評(píng)論

相關(guān)推薦

AI訓(xùn)練勢(shì)起，GPU要讓位了？

的BERTSG、北京智源人工智能研究院的悟道2.0等等。 ? 那么訓(xùn)練出這樣一個(gè)大模型需要怎樣的硬件前提？如何以較低的成本完成自己模型訓(xùn)練工作？這些都是不少AI初創(chuàng)企業(yè)需要考慮的問(wèn)題，那么如今市面上有哪些訓(xùn)練芯片是經(jīng)得起考驗(yàn)的呢？我

2021-12-18 06:51:00

2824

AI模型是如何訓(xùn)練的？訓(xùn)練一個(gè)模型花費(fèi)多大？

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）在深度學(xué)習(xí)中，經(jīng)常聽(tīng)到一個(gè)詞“模型訓(xùn)練”，但是模型是什么？又是怎么訓(xùn)練的？在人工智能中，面對(duì)大量的數(shù)據(jù)，要在雜亂無(wú)章的內(nèi)容中，準(zhǔn)確、容易地識(shí)別，輸出需要的圖像/語(yǔ)音

2022-10-23 00:19:00

24269

英偉達(dá) H100 vs 蘋(píng)果M2 大模型訓(xùn)練，哪款性?xún)r(jià)比更高？

訓(xùn)練和微調(diào)大型語(yǔ)言模型對(duì)于硬件資源的要求非常高。目前，主流的大模型訓(xùn)練硬件通常采用英特爾的CPU和英偉達(dá)的GPU。然而，最近蘋(píng)果的M2 Ultra芯片和AMD的顯卡進(jìn)展給我們帶來(lái)了一些新的希望。

2023-07-28 16:11:01

2123

一文詳解知識(shí)增強(qiáng)的語(yǔ)言預(yù)訓(xùn)練模型

隨著預(yù)訓(xùn)練語(yǔ)言模型(PLMs)的不斷發(fā)展，各種NLP任務(wù)設(shè)置上都取得了不俗的性能。盡管PLMs可以從大量語(yǔ)料庫(kù)中學(xué)習(xí)一定的知識(shí)，但仍舊存在很多問(wèn)題，如知識(shí)量有限、受訓(xùn)練數(shù)據(jù)長(zhǎng)尾分布影響?hù)敯粜圆缓?/div>

2022-04-02 17:21:43

8764

基于不同量級(jí)預(yù)訓(xùn)練數(shù)據(jù)的RoBERTa模型分析

NLP領(lǐng)域的研究目前由像RoBERTa等經(jīng)過(guò)數(shù)十億個(gè)字符的語(yǔ)料經(jīng)過(guò)預(yù)訓(xùn)練的模型匯主導(dǎo)。那么對(duì)于一個(gè)預(yù)訓(xùn)練模型，對(duì)于不同量級(jí)下的預(yù)訓(xùn)練數(shù)據(jù)能夠提取到的知識(shí)和能力有何不同？

2023-03-03 11:21:51

1339

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么解決？

訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦，試了好幾個(gè)模型壓縮了也不行，ram占用過(guò)大，有無(wú)解決方案？

2023-08-04 09:16:28

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class="flag-6" style="color: red">GPU

現(xiàn)場(chǎng)可編程門(mén)陣列 (FPGA) 解決了 GPU 在運(yùn)行深度學(xué)習(xí)模型時(shí)面臨的許多問(wèn)題在過(guò)去的十年里，人工智能的再一次興起使顯卡行業(yè)受益匪淺。英偉達(dá) (Nvidia) 和 AMD 等公司的股價(jià)也大幅

2024-03-21 15:19:45

GBDT算法原理和模型訓(xùn)練

)，其中y取值1或-1（代表二分類(lèi)的類(lèi)別標(biāo)簽），這也是GBDT可以用來(lái)解決分類(lèi)問(wèn)題的原因。模型訓(xùn)練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Mali GPU支持tensorflow或者caffe等深度學(xué)習(xí)模型嗎

Mali GPU 支持tensorflow或者caffe等深度學(xué)習(xí)模型嗎？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU運(yùn)行？我希望把訓(xùn)練

2022-09-16 14:13:01

Nvidia GPU風(fēng)扇和電源顯示ERR怎么解決

問(wèn)題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候，如果機(jī)器鎖屏一段時(shí)間再打開(kāi)的時(shí)候鼠標(biāo)非常卡頓，或者說(shuō)顯示界面非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，訓(xùn)練模型的GPU沒(méi)有問(wèn)題，但是

2021-12-30 06:44:30

OCR訓(xùn)練字符有什么技巧嗎

想要識(shí)別這個(gè)PH計(jì)上的數(shù)字，有下面的圖片訓(xùn)練后，還是不能識(shí)別，大神們OCR訓(xùn)練有什么技巧嗎,怎樣數(shù)字和小數(shù)點(diǎn)都能識(shí)別啊，我現(xiàn)在只能識(shí)別數(shù)字，是需要把圖片處理下嗎？

2017-07-07 17:26:40

Pytorch模型訓(xùn)練實(shí)用PDF教程【中文】

本教程以實(shí)際應(yīng)用、工程開(kāi)發(fā)為目的，著重介紹模型訓(xùn)練過(guò)程中遇到的實(shí)際問(wèn)題和方法。在機(jī)器學(xué)習(xí)模型開(kāi)發(fā)中，主要涉及三大部分，分別是數(shù)據(jù)、模型和損失函數(shù)及優(yōu)化器。本文也按順序的依次介紹數(shù)據(jù)、模型和損失函數(shù)

2018-12-21 09:18:02

[基于GD32F350RB的音頻識(shí)別器] 4.使用Caffe2構(gòu)建訓(xùn)練平臺(tái)

自己的模型，首先就是要搭建這個(gè)計(jì)算圖，然后才是輸入數(shù)據(jù)進(jìn)行訓(xùn)練，然后輸出訓(xùn)練集的過(guò)程。問(wèn)題是這個(gè)深度計(jì)算模型的進(jìn)展和更新比學(xué)習(xí)的還要快得多，就版本還沒(méi)搞通，新版本就有了很大的更新。這個(gè)在范例中引用

2018-09-28 17:50:01

labview可以調(diào)用在python上訓(xùn)練好的分類(lèi)模型么？

能否直接調(diào)用訓(xùn)練好的模型文件？

2021-06-22 14:51:03

labview調(diào)用深度學(xué)習(xí)tensorflow模型非常簡(jiǎn)單，附上源碼和模型

]`labview調(diào)用高性能YOLOV5：http://t.elecfans.com/c1659.html 讓你的CPU也可以運(yùn)行最新深度學(xué)習(xí)模型labview調(diào)用高性能Tensorflow+YOLOV4：http://t.elecfans.com/c1553.html 讓你的GPU也可以運(yùn)行最新深度學(xué)習(xí)模型

2021-06-03 16:38:25

orc字符訓(xùn)練

求助，有哪位大俠可以教我怎么用labvIEW中的orc訓(xùn)練字符集？十分感謝

2014-03-11 10:21:43

【Sipeed M2 Dock開(kāi)發(fā)板試用體驗(yàn)】之家貓檢測(cè)模型訓(xùn)練篇

準(zhǔn)備開(kāi)始為家貓做模型訓(xùn)練檢測(cè)，要去官網(wǎng)https://maix.sipeed.com/home 注冊(cè)帳號(hào)，文章尾部的視頻是官方的，與目前網(wǎng)站略有出路，說(shuō)明訓(xùn)練網(wǎng)站的功能更新得很快。其實(shí)整個(gè)的過(guò)程

2022-06-26 21:19:40

使用eIQ門(mén)戶(hù)進(jìn)行訓(xùn)練時(shí)出現(xiàn)服務(wù)器錯(cuò)誤如何解決?

我正在嘗試使用自己的數(shù)據(jù)集訓(xùn)練人臉檢測(cè)模型。此錯(cuò)誤發(fā)生在訓(xùn)練開(kāi)始期間。如何解決這一問(wèn)題？

2023-04-17 08:04:49

醫(yī)療模型人訓(xùn)練系統(tǒng)是什么？

醫(yī)療模型人訓(xùn)練系統(tǒng)是為滿(mǎn)足廣大醫(yī)學(xué)生的需要而設(shè)計(jì)的。我國(guó)現(xiàn)代醫(yī)療模擬技術(shù)的發(fā)展處于剛剛起步階段，大部分仿真系統(tǒng)產(chǎn)品都源于國(guó)外，雖然對(duì)于模擬人仿真已經(jīng)出現(xiàn)一些產(chǎn)品，但那些產(chǎn)品只是就模擬人的某一部分，某一個(gè)功能實(shí)現(xiàn)的仿真，沒(méi)有一個(gè)完整的系統(tǒng)綜合其所有功能。

2019-08-19 08:32:45

在Ubuntu上使用Nvidia GPU訓(xùn)練模型

問(wèn)題最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候，沒(méi)有問(wèn)題，過(guò)一會(huì)再訓(xùn)練出現(xiàn)非常卡頓，使用nvidia-smi查看發(fā)現(xiàn)，顯示GPU的風(fēng)扇和電源報(bào)錯(cuò)：解決方案自動(dòng)風(fēng)扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測(cè)實(shí)現(xiàn)輸出模型中的表情或性別gradcam

CV：基于Keras利用訓(xùn)練好的hdf5模型進(jìn)行目標(biāo)檢測(cè)實(shí)現(xiàn)輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

基于智能語(yǔ)音交互芯片的模擬訓(xùn)練器示教與回放系統(tǒng)設(shè)計(jì)

0 引言隨著高新技術(shù)在軍事領(lǐng)域的廣泛運(yùn)用，武器裝備逐步向高、精、尖方向發(fā)展。傳統(tǒng)的軍事訓(xùn)練由于訓(xùn)練時(shí)間長(zhǎng)、訓(xùn)練費(fèi)用高、訓(xùn)練空間窄，常常不能達(dá)到預(yù)期的訓(xùn)練效果，已不能滿(mǎn)足現(xiàn)代軍事訓(xùn)練的需要。為

2019-07-01 08:07:36

如何使用eIQ門(mén)戶(hù)訓(xùn)練人臉檢測(cè)模型？

我正在嘗試使用 eIQ 門(mén)戶(hù)訓(xùn)練人臉檢測(cè)模型。我正在嘗試從 tensorflow 數(shù)據(jù)集 (tfds) 導(dǎo)入數(shù)據(jù)集，特別是 coco/2017 數(shù)據(jù)集。但是，我只想導(dǎo)入 wider_face。但是，當(dāng)我嘗試這樣做時(shí)，會(huì)出現(xiàn)導(dǎo)入程序錯(cuò)誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

如何跳過(guò)SPL中的ddr訓(xùn)練？

我正在優(yōu)化啟動(dòng)速度，ddr 訓(xùn)練在 SPL 中需要 360ms，所以我想跳過(guò)它。我厭倦了在 ddr 訓(xùn)練后注意 ddrphy_trained_csr[] 和 g_cdd_max[]，注釋掉 ddr

2023-06-01 08:16:47

如何進(jìn)行OCR訓(xùn)練

1.確定已安裝VA模塊 2.選擇identification/OCR3.點(diǎn)擊“新的字符集文件”4.調(diào)整好矩形選擇框-參數(shù)設(shè)定-輸入正確字符或字符串-點(diǎn)擊“Train”5.點(diǎn)擊“編輯字符集文件”就可以看到訓(xùn)練結(jié)果了。可以多訓(xùn)練一些字符

2017-01-04 16:39:19

如何進(jìn)行高效的時(shí)序圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

提高多GPU訓(xùn)練的性能，包括局部性感知的數(shù)據(jù)劃分策略以及高效的任務(wù)調(diào)度策略。首先，本文使用高效的數(shù)據(jù)劃分策略將圖數(shù)據(jù)以及點(diǎn)的特征向量進(jìn)行有效的劃分，來(lái)降低GPU之間額外的通信開(kāi)銷(xiāo)。點(diǎn)的特征向量占據(jù)很大

2022-09-28 10:37:20

平臺(tái)羅經(jīng)訓(xùn)練模擬器設(shè)計(jì)介紹

知識(shí)，維護(hù)使用人員只有經(jīng)過(guò)專(zhuān)門(mén)培訓(xùn)才能勝任故障定位、排除以及裝備等日常維護(hù)工作。由于受經(jīng)費(fèi)、生產(chǎn)能力等客觀條件制約，以及訓(xùn)練內(nèi)容、形式有限，實(shí)裝訓(xùn)練不能完全滿(mǎn)足訓(xùn)練需求。為了提高使用人員的操作技能和維護(hù)保養(yǎng)

2019-07-23 07:30:02

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時(shí)候，權(quán)值是不是不能變了？

當(dāng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)用于應(yīng)用的時(shí)候，權(quán)值是不是不能變了？？？？就是已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)是不是相當(dāng)于得到一個(gè)公式了，權(quán)值不能變了

2016-10-24 21:55:22

探索一種降低ViT模型訓(xùn)練成本的方法

其上的實(shí)驗(yàn)來(lái)評(píng)估性能，當(dāng)每次實(shí)驗(yàn)的訓(xùn)練成本過(guò)高時(shí)，這不是一種可擴(kuò)展的方法。通過(guò)降低訓(xùn)練成本，縮短了開(kāi)發(fā)周期。2 更容易接近。大多數(shù)ViT模型都是通過(guò)使用多個(gè)GPU或TPU從頭開(kāi)始訓(xùn)練的，不幸的是，這將

2022-11-24 14:56:31

深度融合模型的特點(diǎn)

深度融合模型的特點(diǎn)，背景深度學(xué)習(xí)模型在訓(xùn)練完成之后，部署并應(yīng)用在生產(chǎn)環(huán)境的這一步至關(guān)重要，畢竟訓(xùn)練出來(lái)的模型不能只接受一些公開(kāi)數(shù)據(jù)集和榜單的檢驗(yàn)，還需要在真正的業(yè)務(wù)場(chǎng)景下創(chuàng)造價(jià)值，不能只是為了PR而

2021-07-16 06:08:20

用S3C2440訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法

嵌入式設(shè)備自帶專(zhuān)用屬性，不適合作為隨機(jī)性很強(qiáng)的人工智能深度學(xué)習(xí)訓(xùn)練平臺(tái)。想象用S3C2440訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法都會(huì)頭皮發(fā)麻，PC上的I7、GPU上都很吃力，大部分都要依靠服務(wù)器來(lái)訓(xùn)練。但是一旦算法訓(xùn)練

2021-08-17 08:51:57

神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)常用的一些損失函數(shù)介紹

，模型收斂速度相當(dāng)快，訓(xùn)練和測(cè)試性能保持不變。根據(jù)模型的性能和收斂特性，均方誤差是回歸問(wèn)題的一個(gè)很好的選擇。MSLE在具有廣泛值的回歸問(wèn)題中，可能不希望在預(yù)測(cè)大值時(shí)像均方誤差那樣對(duì)模型進(jìn)行懲罰。所以

2022-10-20 17:14:15

算法原理與模型訓(xùn)練

2019-01-25 15:02:15

請(qǐng)教Vision做OCR識(shí)別數(shù)字，可以訓(xùn)練，但訓(xùn)練好的對(duì)訓(xùn)練樣本處理出現(xiàn)問(wèn)題，見(jiàn)圖片閾值無(wú)法調(diào)節(jié)，求教_(:зゝ∠)_

OCR訓(xùn)練時(shí)閾值選擇Mode為Auto：Uniform，但訓(xùn)練好后對(duì)訓(xùn)練樣本做識(shí)別出現(xiàn)問(wèn)題，見(jiàn)圖片，求教

2017-02-20 11:26:18

請(qǐng)問(wèn)K510設(shè)備什么時(shí)候可以支持線上模型訓(xùn)練？

目前官方的線上模型訓(xùn)練只支持K210，請(qǐng)問(wèn)K510什么時(shí)候可以支持

2023-09-13 06:12:13

請(qǐng)問(wèn)Labveiw如何調(diào)用matlab訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型呢？

我在matlab中訓(xùn)練好了一個(gè)神經(jīng)網(wǎng)絡(luò)模型，想在labview中調(diào)用，請(qǐng)問(wèn)應(yīng)該怎么做呢？或者labview有自己的神經(jīng)網(wǎng)絡(luò)工具包嗎？

2018-07-05 17:32:32

下肢外骨骼康復(fù)訓(xùn)練機(jī)器人

邁步機(jī)器人BEAR-H系列是用于輔助腦卒中患者步態(tài)康復(fù)訓(xùn)練的新型可穿戴式下肢外骨骼機(jī)器人。機(jī)器人擁有主動(dòng)被動(dòng)訓(xùn)練模式，通過(guò)對(duì)患者髖、膝、踝關(guān)節(jié)提供助力完成行走訓(xùn)練，可以節(jié)省人力，并提高康復(fù)效果

2023-09-20 17:25:48

比谷歌快46倍！GPU助力IBM Snap ML，40億樣本訓(xùn)練模型僅需91.5秒

在為這樣的大規(guī)模應(yīng)用部署GPU加速時(shí)，出現(xiàn)了一個(gè)主要的技術(shù)挑戰(zhàn)：訓(xùn)練數(shù)據(jù)太大而無(wú)法存儲(chǔ)在GPU上可用的存儲(chǔ)器中。因此，在訓(xùn)練期間，需要有選擇地處理數(shù)據(jù)并反復(fù)移入和移出GPU內(nèi)存。為了解釋?xiě)?yīng)用程序的運(yùn)行時(shí)間，研究人員分析了在GPU內(nèi)核中花費(fèi)的時(shí)間與在GPU上復(fù)制數(shù)據(jù)所花費(fèi)的時(shí)間。

2018-03-26 10:29:15

4283

基于虛擬化的多GPU深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架

針對(duì)深度神經(jīng)網(wǎng)絡(luò)在分布式多機(jī)多GPU上的加速訓(xùn)練問(wèn)題，提出一種基于虛擬化的遠(yuǎn)程多GPU調(diào)用的實(shí)現(xiàn)方法。利用遠(yuǎn)程GPU調(diào)用部署的分布式GPU集群改進(jìn)傳統(tǒng)一對(duì)一的虛擬化技術(shù)，同時(shí)改變深度神經(jīng)網(wǎng)絡(luò)在分布式

2018-03-29 16:45:25

基于tensorflow.js設(shè)計(jì)、訓(xùn)練面向web的神經(jīng)網(wǎng)絡(luò)模型的經(jīng)驗(yàn)

了NVIDIA顯卡。tensorflow.js在底層使用了WebGL加速，所以在瀏覽器中訓(xùn)練模型的一個(gè)好處是可以利用AMD顯卡。另外，在瀏覽器中訓(xùn)練模型，可以更好地保護(hù)用戶(hù)隱私，更容易讓用戶(hù)信任。

2018-10-18 09:43:12

3837

GPU如何訓(xùn)練大批量模型？方法在這里

深度學(xué)習(xí)模型和數(shù)據(jù)集的規(guī)模增長(zhǎng)速度已經(jīng)讓 GPU 算力也開(kāi)始捉襟見(jiàn)肘，如果你的 GPU 連一個(gè)樣本都容不下，你要如何訓(xùn)練大批量模型？通過(guò)本文介紹的方法，我們可以在訓(xùn)練批量甚至單個(gè)訓(xùn)練樣本大于 GPU

2018-12-03 17:24:01

668

為什么要使用預(yù)訓(xùn)練模型？8種優(yōu)秀預(yù)訓(xùn)練模型大盤(pán)點(diǎn)

正如我們?cè)诒疚闹兴觯琔LMFiT使用新穎的NLP技術(shù)取得了令人矚目的成果。該方法對(duì)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào)，將其在WikiText-103數(shù)據(jù)集（維基百科的長(zhǎng)期依賴(lài)語(yǔ)言建模數(shù)據(jù)集Wikitext之一）上訓(xùn)練，從而得到新數(shù)據(jù)集，通過(guò)這種方式使其不會(huì)忘記之前學(xué)過(guò)的內(nèi)容。

2019-04-04 11:26:26

23192

機(jī)器學(xué)習(xí)模型再訓(xùn)練的指南詳細(xì)概述

機(jī)器學(xué)習(xí)模型的訓(xùn)練，通常是通過(guò)學(xué)習(xí)某一組輸入特征與輸出目標(biāo)之間的映射來(lái)進(jìn)行的。一般來(lái)說(shuō)，對(duì)于映射的學(xué)習(xí)是通過(guò)優(yōu)化某些成本函數(shù)，來(lái)使預(yù)測(cè)的誤差最小化。在訓(xùn)練出最佳模型之后，將其正式發(fā)布上線，再根據(jù)未來(lái)

2020-04-10 08:00:00

關(guān)于語(yǔ)言模型和對(duì)抗訓(xùn)練的工作

本文把對(duì)抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個(gè)階段，對(duì)抗訓(xùn)練的方法是針對(duì)embedding space，通過(guò)最大化對(duì)抗損失、最小化模型損失的方式進(jìn)行對(duì)抗，在下游任務(wù)上取得了一致的效果提升。有趣的是，這種對(duì)抗

2020-11-02 15:26:49

1802

如何讓PyTorch模型訓(xùn)練變得飛快？

讓我們面對(duì)現(xiàn)實(shí)吧，你的模型可能還停留在石器時(shí)代。我敢打賭你仍然使用32位精度或GASP甚至只在一個(gè)GPU上訓(xùn)練。我明白，網(wǎng)上都是各種神經(jīng)網(wǎng)絡(luò)加速指南，但是一個(gè)checklist都沒(méi)有（現(xiàn)在

2020-11-27 10:43:52

1487

字符感知預(yù)訓(xùn)練模型CharBERT

本期推送介紹了哈工大訊飛聯(lián)合實(shí)驗(yàn)室在自然語(yǔ)言處理重要國(guó)際會(huì)議COLING 2020上發(fā)表的工作，提出了一種字符感知預(yù)訓(xùn)練模型CharBERT，在多個(gè)自然語(yǔ)言處理任務(wù)中取得顯著性能提升，并且大幅度

2020-11-27 10:47:09

1581

小米在預(yù)訓(xùn)練模型的探索與優(yōu)化

導(dǎo)讀：預(yù)訓(xùn)練模型在NLP大放異彩，并開(kāi)啟了預(yù)訓(xùn)練-微調(diào)的NLP范式時(shí)代。由于工業(yè)領(lǐng)域相關(guān)業(yè)務(wù)的復(fù)雜性，以及工業(yè)應(yīng)用對(duì)推理性能的要求，大規(guī)模預(yù)訓(xùn)練模型往往不能簡(jiǎn)單直接地被應(yīng)用于NLP業(yè)務(wù)中。本文將為

2020-12-31 10:17:11

2217

一個(gè)GPU訓(xùn)練一個(gè)130億參數(shù)的模型

。這些大模型的出現(xiàn)讓普通研究者越發(fā)絕望：沒(méi)有「鈔能力」、沒(méi)有一大堆 GPU 就做不了 AI 研究了嗎？在此背景下，部分研究者開(kāi)始思考：如何讓這些大模型的訓(xùn)練變得更加接地氣？也就是說(shuō)，怎么用更少的卡訓(xùn)練更大的模型？為了解決這個(gè)問(wèn)題，來(lái)自微軟、加州大學(xué)默塞德分校的研究

2021-02-11 09:04:00

2167

一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)模型

為提高卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)模型精度并增強(qiáng)檢測(cè)器對(duì)小目標(biāo)的檢測(cè)能力，提出一種脫離預(yù)訓(xùn)練的多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)模型。采用脫離預(yù)訓(xùn)練檢測(cè)網(wǎng)絡(luò)使其達(dá)到甚至超過(guò)預(yù)訓(xùn)練模型的精度，針對(duì)小目標(biāo)特點(diǎn)

2021-04-02 11:35:50

基于預(yù)訓(xùn)練模型和長(zhǎng)短期記憶網(wǎng)絡(luò)的深度學(xué)習(xí)模型

語(yǔ)義槽填充是對(duì)話(huà)系統(tǒng)中一項(xiàng)非常重要的任務(wù)，旨在為輸入句子的毎個(gè)單詞標(biāo)注正確的標(biāo)簽，其性能的妤壞極大地影響著后續(xù)的對(duì)話(huà)管理模塊。目前，使用深度學(xué)習(xí)方法解決該任務(wù)時(shí)，一般利用隨機(jī)詞向量或者預(yù)訓(xùn)練詞向量

2021-04-20 14:29:06

如何向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型中融入知識(shí)？

本文關(guān)注于向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型（如RoBERTa、BERT等）中融入知識(shí)。

2021-06-23 15:07:31

3465

NVIDIA GPU助力提升模型訓(xùn)練和推理性?xún)r(jià)比

，其中的模型數(shù)量達(dá)數(shù)千個(gè)，日均調(diào)用服務(wù)達(dá)到千億級(jí)別。無(wú)量推薦系統(tǒng)，在模型訓(xùn)練和推理都能夠進(jìn)行海量Embedding和DNN模型的GPU計(jì)算，是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計(jì)。傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn) 傳統(tǒng)推薦系統(tǒng)具有以下特點(diǎn)： 訓(xùn)練是基于參數(shù)

2021-08-23 17:09:03

4486

多模態(tài)圖像-文本預(yù)訓(xùn)練模型

在某一方面的智能程度。具體來(lái)說(shuō)是，領(lǐng)域?qū)＜胰斯?gòu)造標(biāo)準(zhǔn)數(shù)據(jù)集，然后在其上訓(xùn)練及評(píng)價(jià)相關(guān)模型及方法。但由于相關(guān)技術(shù)的限制，要想獲得效果更好、能力更強(qiáng)的模型，往往需要在大量的有標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。近期預(yù)訓(xùn)練模型的

2021-09-06 10:06:53

3351

探究超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

NVIDIA Megatron 是一個(gè)基于 PyTorch 的框架，用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語(yǔ)言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計(jì)和實(shí)踐，探索這一框架如何助力

2021-10-20 09:25:43

2078

2021 OPPO開(kāi)發(fā)者大會(huì)：NLP預(yù)訓(xùn)練大模型

2021 OPPO開(kāi)發(fā)者大會(huì)：NLP預(yù)訓(xùn)練大模型 2021 OPPO開(kāi)發(fā)者大會(huì)上介紹了融合知識(shí)的NLP預(yù)訓(xùn)練大模型。責(zé)任編輯：haq

2021-10-27 14:18:41

1492

NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

深度學(xué)習(xí)是推動(dòng)當(dāng)前人工智能大趨勢(shì)的關(guān)鍵技術(shù)。在 MATLAB 中可以實(shí)現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計(jì)、訓(xùn)練和部署全流程開(kāi)發(fā)和應(yīng)用。聯(lián)合高性能 NVIDIA GPU 加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷。

2022-02-18 13:31:44

1714

如何實(shí)現(xiàn)更綠色、經(jīng)濟(jì)的NLP預(yù)訓(xùn)練模型遷移

NLP中，預(yù)訓(xùn)練大模型Finetune是一種非常常見(jiàn)的解決問(wèn)題的范式。利用在海量文本上預(yù)訓(xùn)練得到的Bert、GPT等模型，在下游不同任務(wù)上分別進(jìn)行finetune，得到下游任務(wù)的模型。然而，這種方式

2022-03-21 15:33:30

1843

一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度，使得計(jì)算效率高于掩碼語(yǔ)言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時(shí)，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

本文對(duì)任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實(shí)在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

934

預(yù)訓(xùn)練語(yǔ)言模型的字典描述

今天給大家?guī)?lái)一篇IJCAI2022浙大和阿里聯(lián)合出品的采用對(duì)比學(xué)習(xí)的字典描述知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型-DictBERT，全名為《Dictionary Description Knowledge

2022-08-11 10:37:55

865

如何在GPU資源受限的情況下訓(xùn)練transformers庫(kù)上面的大模型

自BERT出現(xiàn)以來(lái)，nlp領(lǐng)域已經(jīng)進(jìn)入了大模型的時(shí)代，大模型雖然效果好，但是畢竟不是人人都有著豐富的GPU資源，在訓(xùn)練時(shí)往往就捉襟見(jiàn)肘，出現(xiàn)顯存out of memory的問(wèn)題，或者訓(xùn)練時(shí)間非常非常的久

2022-08-31 18:16:05

1920

AI模型是如何訓(xùn)練的？訓(xùn)練一個(gè)模型花費(fèi)多大？

2022-10-23 00:20:03

7247

如何高效訓(xùn)練Transformer？

然而隨著模型的不斷擴(kuò)大，其訓(xùn)練過(guò)程也變得更加困難，比如會(huì)出現(xiàn)訓(xùn)練不收斂等問(wèn)題。這就需要大量的手動(dòng)調(diào)參工作來(lái)解決，而這不僅會(huì)造成資源浪費(fèi)，還會(huì)產(chǎn)生不可預(yù)估的計(jì)算成本。

2023-03-01 09:48:25

1286

預(yù)訓(xùn)練數(shù)據(jù)大小對(duì)于預(yù)訓(xùn)練模型的影響

BERT類(lèi)模型的工作模式簡(jiǎn)單，但取得的效果也是極佳的，其在各項(xiàng)任務(wù)上的良好表現(xiàn)主要得益于其在大量無(wú)監(jiān)督文本上學(xué)習(xí)到的文本表征能力。那么如何從語(yǔ)言學(xué)的特征角度來(lái)衡量一個(gè)預(yù)訓(xùn)練模型的究竟學(xué)習(xí)到了什么樣的語(yǔ)言學(xué)文本知識(shí)呢？

2023-03-03 11:20:00

911

什么是預(yù)訓(xùn)練 AI 模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。如果要教一個(gè)剛學(xué)會(huì)走路的孩子什么是獨(dú)角獸，那么我們首先應(yīng)

2023-04-04 01:45:02

1025

推特并入X公司馬斯克還買(mǎi)了10000個(gè)GPU要訓(xùn)練大模型

。另外，還有一個(gè)特別有意思的是，馬斯克才呼吁暫停?ChatGPT 的訓(xùn)練，馬上就轉(zhuǎn)身就下場(chǎng)買(mǎi)了10000個(gè)GPU要訓(xùn)練大模型。根據(jù)最新的數(shù)據(jù)統(tǒng)計(jì)顯示，馬斯克的身價(jià)為1876億美元，是全球第二大富豪，也是美國(guó)首富。美國(guó)首富買(mǎi)一些GPU不算什么。毛毛雨啦。據(jù)

2023-04-12 14:19:28

684

利用OpenVINO?部署HuggingFace預(yù)訓(xùn)練模型的方法與技巧

作為深度學(xué)習(xí)領(lǐng)域的 “github”，HuggingFace 已經(jīng)共享了超過(guò) 100,000 個(gè)預(yù)訓(xùn)練模型

2023-05-19 15:57:43

494

什么是預(yù)訓(xùn)練AI模型？

預(yù)訓(xùn)練 AI 模型是為了完成特定任務(wù)而在大型數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)模型。這些模型既可以直接使用，也可以根據(jù)不同行業(yè)的應(yīng)用需求進(jìn)行自定義。

2023-05-25 17:10:09

593

NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

vivo AI 團(tuán)隊(duì)與 NVIDIA 團(tuán)隊(duì)合作，通過(guò)算子優(yōu)化，提升 vivo 文本預(yù)訓(xùn)練大模型的訓(xùn)練速度。在實(shí)際應(yīng)用中， 訓(xùn)練提速 60% ，滿(mǎn)足了下游業(yè)務(wù)應(yīng)用對(duì)模型訓(xùn)練速度的要求。通過(guò)

2023-05-26 07:15:03

422

大模型訓(xùn)練和部署的關(guān)鍵技術(shù)

每18個(gè)月增長(zhǎng)340倍。 ? 然而相比之下，硬件增長(zhǎng)速度較慢，自2016年至今，GPU的性能增長(zhǎng)每18個(gè)月1.7倍，模型大小和硬件增長(zhǎng)的差距逐漸擴(kuò)大。顯存占用大、算力消費(fèi)大、成本高昂等瓶頸嚴(yán)重阻礙AIGC行業(yè)的快速發(fā)展。在此背景下，潞晨科技創(chuàng)始人尤洋認(rèn)為，分布式訓(xùn)練

2023-05-30 13:56:09

1501

PyTorch教程-13.5。在多個(gè) GPU 上進(jìn)行訓(xùn)練

實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開(kāi)筆記本到目前為止，我們討論了如何在 CPU 和 GPU 上高效地訓(xùn)練模型。在13.3 節(jié)中，我們甚至展示了深度學(xué)習(xí)框架如何允許人們?cè)谒鼈?/div>

2023-06-05 15:44:33

710

基于預(yù)訓(xùn)練模型和語(yǔ)言增強(qiáng)的零樣本視覺(jué)學(xué)習(xí)

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會(huì)讓模型能力進(jìn)一步提升怎么讓能力更好？可以引入其他知識(shí)，即其他的預(yù)訓(xùn)練模型，包括大語(yǔ)言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

276

基于一個(gè)完整的 LLM 訓(xùn)練流程

? ? 在這篇文章中，我們將盡可能詳細(xì)地梳理一個(gè)完整的 LLM 訓(xùn)練流程。包括模型預(yù)訓(xùn)練（Pretrain）、Tokenizer 訓(xùn)練、指令微調(diào)（Instruction Tuning）等環(huán)節(jié)。文末

2023-06-29 10:08:59

1202

單張消費(fèi)級(jí)顯卡微調(diào)多模態(tài)大模型

把大模型的訓(xùn)練門(mén)檻打下來(lái)！我們?cè)趩螐埾M(fèi)級(jí)顯卡上實(shí)現(xiàn)了多模態(tài)大模型（LaVIN-7B, LaVIN-13B）的適配和訓(xùn)練

2023-06-30 10:43:28

1172

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟

卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練步驟? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）是一種常用的深度學(xué)習(xí)算法，廣泛應(yīng)用于圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等諸多領(lǐng)域。CNN

2023-08-21 16:42:00

884

使用OpenVINO優(yōu)化并部署訓(xùn)練好的YOLOv7模型

在《英特爾銳炫顯卡+ oneAPI 和 OpenVINO 實(shí)現(xiàn)英特爾視頻 AI 計(jì)算盒訓(xùn)推一體-上篇》一文中，我們?cè)敿?xì)介紹基于英特爾獨(dú)立顯卡搭建 YOLOv7 模型的訓(xùn)練環(huán)境，并完成了 YOLOv7 模型訓(xùn)練，獲得了最佳精度的模型權(quán)重。

2023-08-25 11:08:58

819

訓(xùn)練大語(yǔ)言模型帶來(lái)的硬件挑戰(zhàn)

生成式AI和大語(yǔ)言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡(jiǎn)要介紹了大語(yǔ)言模型，訓(xùn)練這些模型帶來(lái)的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對(duì)訓(xùn)練的工作負(fù)載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

8G顯存一鍵訓(xùn)練，解鎖Llama2隱藏能力！XTuner帶你玩轉(zhuǎn)大模型

針對(duì) GPU 計(jì)算特點(diǎn)，在顯存允許的情況下，XTuner 支持將多條短數(shù)據(jù)拼接至模型最大輸入長(zhǎng)度，以此最大化 GPU 計(jì)算核心的利用率，可以顯著提升訓(xùn)練速度。例如，在使用 oasst1 數(shù)據(jù)集微調(diào) Llama2-7B 時(shí)，數(shù)據(jù)拼接后的訓(xùn)練時(shí)長(zhǎng)僅為普通訓(xùn)練的 50% 。

2023-09-04 16:12:26

1236

開(kāi)源大模型FLM-101B：訓(xùn)練成本最低的超100B參數(shù)大模型

近期，一支來(lái)自中國(guó)的研究團(tuán)隊(duì)正是針對(duì)這些問(wèn)題提出了解決方案，他們推出了FLM-101B模型及其配套的訓(xùn)練策略。FLM-101B不僅大幅降低了訓(xùn)練成本，而且其性能表現(xiàn)仍然非常出色，它是目前訓(xùn)練成本最低的100B+ LLM。

2023-09-12 16:30:30

922

大語(yǔ)言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

model 訓(xùn)練完成后，使用 instruction 以及其他高質(zhì)量的私域數(shù)據(jù)集來(lái)提升 LLM 在特定領(lǐng)域的性能；而 rlhf 是 openAI 用來(lái)讓model 對(duì)齊人類(lèi)價(jià)值觀的一種強(qiáng)大技術(shù)；pre-training dataset 是大模型在訓(xùn)練時(shí)真正喂給 model 的數(shù)據(jù)，從很多 paper 能看到一些觀

2023-09-19 10:00:06

506

4090顯卡全面下架 AI芯片出口管制趨嚴(yán)

這些高性能計(jì)算卡的 DGX/HGX 系統(tǒng)。顯卡4090是屬于民用消費(fèi)級(jí)的，但是因?yàn)?b class="flag-6" style="color: red">性能比較強(qiáng)悍，也被限

2023-10-19 17:24:32

1479

如何讓網(wǎng)絡(luò)模型加速訓(xùn)練

的博文，對(duì) Pytorch的AMP ( autocast與Gradscaler 進(jìn)行對(duì)比) 自動(dòng)混合精度對(duì)模型訓(xùn)練加速。注意Pytorch1.6+，已經(jīng)內(nèi)置torch.cuda.amp，因此便不需要加載

2023-11-03 10:00:19

1054

NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實(shí)現(xiàn)高性能訓(xùn)練優(yōu)化

通過(guò) Merlin 大幅提升大規(guī)模深度多目標(biāo)精排模型訓(xùn)練性能本案例中，NVIDIA 團(tuán)隊(duì)與陌陌推薦系統(tǒng)團(tuán)隊(duì)深度合作，共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有

2023-11-09 10:45:02

120

NVIDIA 為部分大型亞馬遜 Titan 基礎(chǔ)模型提供訓(xùn)練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來(lái)訓(xùn)練其最大的新一代大語(yǔ)言模型（LLM）。大語(yǔ)言模型的一切都很龐大——巨型模型是在數(shù)千顆 NVIDIA

2023-11-29 21:15:02

294

英偉達(dá)RTX 4090D顯卡爆料：全新GPU芯片，符合出口管制

11月30日，rtx 4090d顯卡由ad102-250 gpu芯片驅(qū)動(dòng)，rtx 4090使用ad102-300/301。根據(jù)英偉達(dá)的慣例，同樣的顯卡可以配置不同號(hào)碼的gpu芯片，例如rtx 4090，雖然配置了ad102-300/301兩個(gè)芯片，但由于編號(hào)數(shù)字從300降至250，性能可能會(huì)下降。

2023-12-01 14:19:24

768

Kaggle知識(shí)點(diǎn)：訓(xùn)練神經(jīng)網(wǎng)絡(luò)的7個(gè)技巧

科學(xué)神經(jīng)網(wǎng)絡(luò)模型使用隨機(jī)梯度下降進(jìn)行訓(xùn)練，模型權(quán)重使用反向傳播算法進(jìn)行更新。通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型解決的優(yōu)化問(wèn)題非常具有挑戰(zhàn)性，盡管這些算法在實(shí)踐中表現(xiàn)出色，但不能保證它們會(huì)及時(shí)收斂到一個(gè)良好的模型

2023-12-30 08:27:54

319