Medusa如何加速大型語言模型（LLM）的生成？

作者：Winnie

今天為大家介紹一個新技術—Medusa，它旨在加速大型語言模型（LLM）的生成。盡管其設計簡單，但 Medusa能夠將LLM的生成效率提高約2倍。讓我們看看它是怎么做到的吧！

為什么LLM生成低效？

LLM在生成時的效率問題主要是由內存讀/寫操作帶來的延遲，而這個問題源自自動回歸解碼過程的順序性特點。每次的前向傳播都需要頻繁地移動模型參數，盡管這只產生一個結果，但卻沒有完全利用現代硬件的計算潛能。傳統的解決方式（如增大批次大小）在LLM的場景下卻不再適用，因為這不僅會增加延遲，還會引發內存問題。

不僅如此，這種低效還帶來了額外的生成成本。例如，GPT-4的生成成本比僅僅處理prompt高了兩倍，Claude2則大約高出3倍。因此，加速LLM的低效生成是一個亟待解決的問題。

Medusa來了！

面對推測性解碼的復雜性，研究人員推出了Medusa技術，這個框架回歸了Transformer模型的本質，減少了復雜度，增強了效率，讓每個生成階段都能快速產出結果。當將Medusa與基于樹的注意機制結合時，生成速度提高了2到3倍。

接下來，讓我們看一看Msdusa都做了哪些改進吧！

Medusa總體框架

Medusa的核心在于它在LLM的最后隱藏層上增加的多個Heads，使它們并行工作，預測接下來的內容。

當將Medusa Heads加入模型時，你會發現，原始模型保持不變，而只有這些Medusa Heads進行微調。在真正使用時，每個Medusa Head都會為其位置產生預測，這些預測會被組合、處理，最終給出最佳結果。

通過同時接受更多的tokens來增強解碼過程的效率，從而減少了所需的解碼步驟數量。

Medusa Heads

Medusa Heads與原有的語言模型頭相似，但卻擁有一個獨特的優勢：它們可以預測多個即將出現的token，而不僅僅是下一個。這種方法從Blockwise Parallel Decoding方法中汲取靈感，將每個Medusa頭設計為一個單層的前饋網絡，且增強了殘差連接。

訓練這些Medusa Heads非常方便！你可以使用用于訓練原始模型的同一語料庫，或者使用模型本身生成一個新的語料庫來訓練它們。在訓練階段，原始的模型保持靜態，僅Medusa Heads進行微調。這種有針對性的訓練產生了一個參數效率極高的過程，可以迅速實現收斂—尤其是與speculative decoding方法中訓練單獨的draft model的計算密集度相比。

Medusa Heads的表現相當出色，它在預測“下一個”token時的top-1準確率約為60%。但這僅僅是個開始，它還有很大的提升空間。

Tree attention

通過Medusa Heads的測試，研究人員發現：雖然預測“下下一個”token的top-1準確率僅約為60%，但top-5準確率卻飆升至超過80%。這一顯著的提高表明，如果我們可以巧妙地利用Medusa Heads做出的多個top排名預測，就可以顯著增加每個解碼步驟生成的tokens數量。

實現這一目標的方式是首先構造一個候選集，這個集合由每個Medusa Head的預測結果的笛卡爾積形成。然后，依賴圖被編碼到注意力機制中，允許多個候選項目并行處理，這是受到圖神經網絡思想的啟發。例如，在一個實際應用中，可以從第一個Medusa頭部獲取前兩個預測，從第二個頭部獲取前三個預測，并將它們組合成一個多層樹結構。在這種結構中，一個注意力掩碼被實施，僅限制注意力于一個token的前一個token，從而保持歷史上下文。通過這種方式，可以同時處理多個候選項，而無需增加批次大小。

下圖是Tree attention機制用于并行處理多個候選項目的一個可視化示例。在一個示例中，來自第一個Medusa頭部的前兩個預測和來自第二個頭部的前三個預測產生了2*3=6個候選項。這些候選項中的每一個都對應于樹結構中的一個不同分支。為了保證每個token只能訪問其前面的token，注意力掩碼，該掩碼僅允許注意力從當前token流向其前面的token。位置編碼的位置指數將根據這種結構進行調整。通過這種方式，可以確保歷史上下文的完整性和連貫性，同時提高解碼步驟的效率和準確性。

值得注意的是，與一些獨立的研究相比，該方法傾向于使用簡化形式的樹狀注意力，其中樹的模式在推斷期間是規則和固定的，這允許預處理樹狀注意力掩碼，進而提高效率。通過創新這種解碼方法，它不僅提供了一個新的解碼路徑，而且為更精確和高效的未來預測打開了新的可能性。

Typical acceptance

在早期關于投機解碼的研究中，重要性采樣技術用于產生與原始模型預測緊密相符的多樣化輸出。但隨后的研究表明，隨著“creativity dial”或采樣溫度的增加，這種方法的效率會降低。簡而言之，如果一個draft model與原始模型一樣優秀，理論上應接受其所有輸出，使過程極為高效。但是重要性采樣可能會在某個階段拒絕這種方案。

實際上，人們常常僅調整采樣溫度來控制模型的創造力，而不是嚴格匹配原始模型的分布。那么為什么不只是接受看似合理的候選項呢？Typical acceptance策略受到截斷采樣的啟發，目的是選取根據原始模型被視為足夠可能的候選項。通過設置基于原始模型預測概率的閾值，如果候選項超過這個閾值，則將其接受。

在技術語言中，我們采用硬閾值和依賴于熵的閾值中的最小值來決定是否接受一個候選項，如截斷采樣中所做。這確保在解碼期間選擇了有意義的標記和合理的延續。第一個標記總是通過貪婪解碼被接受，確保每一步至少生成一個標記。最終輸出是通過接受測試的最長序列。這種方法的優點在于其適應性。如果將采樣溫度設置為零，它將簡單地退化為最有效的形式——貪婪解碼。提高溫度會使方法變得更加高效，允許更長的接受序列，這一點已通過嚴格測試得到驗證。

性能測試

在Vicuna模型上測試了Medusa，這些模型是特別為聊天應用優化和調整的羊駝模型，其大小不同，參數數量分別為7B、13B和33B。目標是衡量Medusa在現實世界的聊天機器人環境中能夠多大程度上加速這些模型的運行。

訓練Medusa頭部選擇了簡單的方式，使用了公開的ShareGPT數據集，這是最初用于訓練Vicuna模型的數據的一個子集，只進行了一個時代的訓練。

這里的重點是——整個訓練過程可以在幾小時到一天之內完成，具體取決于模型的大小，全部在單個A100-80G GPU上完成。顯著的是，Medusa可以與量化基模型輕松結合，從而減少內存需求。為了利用這一優勢，在訓練33B模型時使用了8位量化。

為模擬現實環境，采用了MT測試臺進行評估。結果是令人鼓舞的：Medusa借助其簡單的設計，在各種用例中穩定實現了約2倍的實際運行時間加速。顯著的是，有了Medusa的優化，33B參數的Vicuna模型可以與13B模型一樣快速運行。

結語

Medusa技術致力于通過多層頭部預測方法來加速LLM的語言生成速度。該研究中引入了多個Medusa頭和Tree attention機制，通過預測多個即將出現的標記而非一個來優化生成速度，同時還保持了高準確率。此外，研究還提出了Typical acceptance方案，它基于原始模型的預測概率來選擇候選項，而不是依賴重要性抽樣，使得創意輸出更為高效和自適應。

在實際測試中，Medusa成功地將Vicuna模型的運行速度提高了大約兩倍，證明了其在現實世界的聊天機器人環境中的實用性和效果。整體來看，Medusa為開發更快、更有效的聊天機器人開辟了新的可能，顯示出在語言模型生成領域的巨大潛力。

編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
語言模型(9992) 語言模型(9992)
LLM(229) LLM(229)

突破邊界：高性能計算引領LLM駛向通用人工智能AGI的創新紀元

ChatGPT的成功帶動整個AIGC產業的發展，尤其是LLM（大型語言模型，大語言模型）、NLP、高性能計算和深度學習等領域。LLM的發展將為全球和中國AI芯片、AI服務器市場的增長提供強勁動力，據估算，LLM將為全球和中國AI服務器帶來約891.2億美元和338.2億美元的市場空間。

2023-06-25 14:31:15

575

大型語言模型在關鍵任務和實際應用中的挑戰

大型語言模型的出現極大地推動了自然語言處理領域的進步，但同時也存在一些局限性，比如模型可能會產生看似合理但實際上是錯誤或虛假的內容，這一現象被稱為幻覺（hallucination）。幻覺的存在使得

2023-08-15 09:33:45

1090

低比特量化技術如何幫助LLM提升性能

針對大語言模型 (LLM) 在部署過程中的性能需求，低比特量化技術一直是優化效果最佳的方案之一，本文將探討低比特量化技術如何幫助 LLM 提升性能，以及新版 OpenVINO 對于低比特量化技術的支持。

2023-12-08 15:26:45

554

探索高效的大型語言模型！大型語言模型的高效學習方法

在大型語言模型（LLMs）的應用中，提示工程（Prompt Engineering）是一種關鍵技術，用于引導模型生成特定輸出或執行特定任務。通過精心設計的提示，可以顯著提高LLMs的性能和適用性。本文將介紹提示工程的主要方法和技巧，包括少樣本提示、提示壓縮和提示生成。

2023-12-13 14:21:47

274

使用基于Transformers的API在CPU上實現LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個創新工具包，可基于英特爾架構平臺，尤其是第四代英特爾至強可擴展處理器（代號 SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

NVIDIA 推出大型語言模型云服務以推進 AI 和數字生物學的發展

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA ? 美國加利福尼亞州圣克拉拉

2022-09-21 15:24:52

434

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關系

電子發燒友網報道（文/李彎彎）大語言模型（LLM）是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

LuxStudio增材制造晶格模型自動生成平臺

LuxStudio增材制造晶格模型自動生成平臺｜LuxCreo目前，市面上大多數的晶格設計軟件幾乎都有局限性，比如晶格種類過少、生成的晶胞質量本身有問題、效果不理想，另外軟件操作門檻較高等，種種弊端

2022-11-09 10:43:02

Medusa登錄暴力工具

./oschina_soft/medusa.zip

2022-05-20 09:17:05

NVIDIA NeMo最新語言模型服務幫助開發者定制大規模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發者定制大規模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平臺訓練大型語言模型

韓國先進的移動運營商構建包含數百億個參數的大型語言模型，并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓練該模型。

2022-09-27 09:24:30

915

NVIDIA AI平臺為大型語言模型帶來巨大收益

隨著大型語言模型（ LLM ）的規模和復雜性不斷增長， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高達 30% 的訓練速度。

2022-10-10 15:39:42

644

基于用于自然語言生成的“語境調優”技術

自然語言生成（又稱為文本生成）旨在基于輸入數據用人類語言生成合理且可讀的文本。隨著預訓練語言模型的發展，GPT-3，BART等模型逐漸成為了生成任務的主流模型。近年來，為了利用預訓練階段編碼的豐富知識，提示學習成為了一個簡單而強大的方法。

2022-10-14 15:38:43

762

基因組學大型語言模型在多項任務中均展現出卓越的性能和應用擴展空間

。這一聯合團隊的研究指出，經過基因組學訓練的大型語言模型（LLM）可將應用擴展到大量基因組學任務。該團隊使用 NVIDIA 的超級計算機 Cambridge-1 來訓練參數規模從 500M 到 2.5B 不等的各種大型語言模型（LLM）。這些模型在各種基因組數據集上進行了訓練，以探

2023-01-17 01:05:04

444

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數

2023-01-17 14:29:53

692

介紹一種基于Transformer的大語言模型

大模型的研究者和大公司出于不同的動機站位 LLM，研究者出于對 LLM 的突現能力 (emergent ability) 的好奇和對 LLM 對 NLP 領域能力邊界的拓展、而大公司可能更多出自于商業利益考量；

2023-02-21 18:05:10

940

SOTA生成式模型：9大類別21個模型合集

過去的兩年時間里，AI界的大型生成模型發布呈井噴之勢，尤其是Stable Diffusion開源和ChatGPT開放接口后，更加激發了業界對生成式模型的熱情。

2023-02-23 11:22:38

778

大型語言模型有哪些用途？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。 AI 應用在大型語言模型的幫助下，可用于解決總結文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結、翻譯、預測和生成文本及其他內容。

2023-03-08 13:57:00

6989

NVIDIA 為全球企業帶來生成式 AI 推出用于創建大型語言模型和視覺模型的云服務

和運行自定義大型語言模型和生成式AI模型，這些模型專為企業所在領域的特定任務而創建，并且在專有數據上訓練。 ? Getty Images、Morningstar、Quantiphi、Shutterstock公

2023-03-22 13:45:40

261

GTC23 | NVIDIA 為全球企業帶來生成式 AI，推出用于創建大型語言模型和視覺模型的云服務

能夠構建、完善和運行自定義大型語言模型和生成式 AI 模型，這些模型專為企業所在領域的特定任務而創建，并且在專有數據上訓練。 Getty Images、Morningstar、Quantiphi、Shutterst

2023-03-23 06:50:04

365

GTC23 | NVIDIA 發布大型語言模型和生成式 AI 服務以推動生命科學研發

年 3 月 21 日 – NVIDIA 今日推出一整套用于自定義 AI 基礎模型的生成式 AI 云服務。這些服務將加速新蛋白質和治療方法的創建以及基因組學、化學、生物學和分子動力學等領域的研究。作為

2023-03-23 06:55:03

328

GTC23 | NVIDIA 為全球企業帶來生成式 AI，推出用于創建大型語言模型和視覺模型的云服務

2023-03-25 15:20:04

285

大型語言模型綜述全新出爐！從T5到GPT-4最全盤點

LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」，這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時，它還引入了一個顯著的特征：當規模達到一定水平時，性能顯著高于隨機的狀態。

2023-04-04 14:16:28

870

獲取大語言模型（LLM）核心開發技能，報名 NVIDIA DLI 實戰培訓

ChatGPT 的誕生，帶來了 AI 產業的 “iPhone 時刻”，其成功背后大語言模型（Large Language Model，LLM）的商業價值正逐步被揭示和成為現實。隨著 LLM 技術

2023-04-05 00:25:03

416

各種大語言模型是徹底被解封了

基礎 LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結構，Multi-task 是指 ERNIE 3.0 的模型結構

2023-04-20 11:25:44

1071

一套開源的大型語言模型（LLM）—— StableLM

對于任何沒有額外微調和強化學習的預訓練大型語言模型來說，用戶得到的回應質量可能參差不齊，并且可能包括冒犯性的語言和觀點。這有望隨著規模、更好的數據、社區反饋和優化而得到改善。

2023-04-24 10:07:06

2168

利用大語言模型做多模態任務

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。

2023-05-10 16:53:15

701

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此，現階段，如何利用LLM做一些多模態任務還是有一定的研究價值的。

2023-05-11 17:09:16

648

大語言模型的多語言機器翻譯能力分析

以ChatGPT為代表的大語言模型（Large Language Models, LLM）在機器翻譯（Machine Translation, MT）任務上展現出了驚人的潛力。

2023-05-17 09:56:26

903

邱錫鵬團隊提出SpeechGPT：具有內生跨模態能力的大語言模型

雖然現有的級聯方法或口語語言模型能夠感知和生成語音，但仍存在一些限制。首先，在級聯模型中，LLM 僅充當內容生成器。由于語音和文本的表示沒有對齊，LLM 的知識無法遷移到語音模態中。

2023-05-22 10:19:29

382

邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT，為多模態LLM指明方向

大型語言模型（LLM）在各種自然語言處理任務上表現出驚人的能力。與此同時，多模態大型語言模型，如 GPT-4、PALM-E 和 LLaVA，已經探索了 LLM 理解多模態信息的能力。然而，當前

2023-05-22 14:38:06

417

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口

2023-05-22 15:57:33

466

大型語言模型能否捕捉到它們所處理和生成的文本中的語義信息

確實能學習和表示文本的意義。雖然大型預訓練語言模型（LLM）在一系列下游任務中展現出飛速提升的性能，但它們是否真的理解其使用和生成的文本語義？長期以來，AI社區對這一問題存在很大的分歧。有一種猜測是，純粹基于語言的形式（例

2023-05-25 11:34:11

434

微軟將向美國政府客戶提供OpenAI的GPT模型

微軟增加了對大型語言模型（llm）的支持。openai推出chatgpt后，llm的使用大幅增加，微軟持有openai的股份，許多類型的公司爭相在llm上構建功能。

2023-06-08 10:35:43

759

淺析AI大型語言模型研究的發展歷程

大型語言模型研究的發展有三條技術路線：Bert 模式、GPT 模式、混合模式。其中國內大多采用混合模式，多數主流大型語言模型走的是 GPT 技術路線，直到 2022 年底在 GPT-3.5 的基礎上產生了 ChatGPT。

2023-06-09 12:34:53

3162

大型語言模型（LLM）的自定義訓練：包含代碼示例的詳細指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關注。但是，要根據特定任務或領域定制LLM，定制培訓是必要的。本文提供了有關自定義訓練 LLM 的詳細分步指南，其中包含代碼示例和示例。

2023-06-12 09:35:43

1782

GPT總設計師：大型語言模型的未來

他預計，深度學習和大型語言模型會繼續發展：這個領域的未來可能會有一小部分重大突破，加之許多細微改進，所有這些都將融入到一個龐大而復雜的工程體系。他還給出了一些有趣、可執行的思想實驗。

2023-06-12 16:38:48

262

Macaw-LLM：具有圖像、音頻、視頻和文本集成的多模態語言建模

盡管指令調整的大型語言模型 (LLM) 在各種 NLP 任務中表現出卓越的能力，但它們在文本以外的其他數據模式上的有效性尚未得到充分研究。在這項工作中，我們提出了 Macaw-LLM，一種新穎的多模式 LLM，它無縫集成了視覺、音頻和文本信息。

2023-06-19 10:35:33

876

基準數據集(CORR2CAUSE)如何測試大語言模型(LLM)的純因果推理能力

? 因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣，但其主要依賴于從常識知識中發現因果關系。本研究提出了一個基準數據集(CORR2CAUSE)來測試大語言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內部

2023-06-25 15:08:49

991

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規模數據集訓練來學習識別、總結、翻譯、預測和生成文本及其他內容。大語言模型（LLM）代表著 AI 領域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

大模型、預訓練對汽車行業的影響 AI加速芯片恐失去市場

大模型最初叫Large languagemodel，LLM，即大規模語言模型，其沒有準確的定義，在2018年一般定義為參數達到數十億以上的模型。

2023-07-05 11:08:07

427

最新綜述！當大型語言模型（LLM）遇上知識圖譜：兩大技術優勢互補

LLM 是黑箱模型，缺乏可解釋性，因此備受批評。LLM 通過參數隱含地表示知識。因此，我們難以解釋和驗證 LLM 獲得的知識。此外，LLM 是通過概率模型執行推理，而這是一個非決斷性的過程。對于 LLM 用以得出預測結果和決策的具體模式和功能，人類難以直接獲得詳情和解釋。

2023-07-10 11:35:00

1354

機器人接入大模型直接聽懂人話，日常操作輕松完成！

接著，LLM（大語言模型）根據這些內容編寫代碼，所生成代碼與VLM（視覺語言模型）進行交互，指導系統生成相應的操作指示地圖，即3D Value Map。

2023-07-11 14:31:01

587

語言模型的發展歷程基于神經網絡的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務。

2023-07-14 11:45:40

454

基于MNN在個人設備上流暢運行大語言模型該如何實現呢？

LLM（大語言模型）因其強大的語言理解能力贏得了眾多用戶的青睞，但LLM龐大規模的參數導致其部署條件苛刻；

2023-07-20 10:49:29

655

2023年發布的25個開源大型語言模型總結

來源： DeepHub IMBA 大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數據集上進行訓練。它們可以用于各種任務，包括生成文本、翻譯語言和編寫不同類型的創意內容。今年開始

2023-07-28 12:20:02

440

ToolLLM：促進大型語言模型掌握16000+真實世界的APIs

盡管開源大語言模型 (LLM) 及其變體（例如 LLaMA 和 Vicuna）取得了進步，但它們在執行更高級別的任務方面仍然受到很大限制，例如遵循人類指令使用外部工具 (API)。

2023-08-02 16:27:52

535

ChatGPT等大型語言模型的出現會帶來哪些風險

近日，美智庫蘭德公司高級工程師克里斯托弗·莫頓(Christopher Mouton)在C4ISRNET網站撰文，分析ChatGPT等大型語言模型的出現給國家安全帶來的新風險。主要觀點如下：

2023-08-04 11:44:53

304

NVIDIA 與 Hugging Face 將連接數百萬開發者與生成式 AI 超級計算

NVIDIA DGX Cloud 集成到 Hugging Face 平臺將加速大語言模型（LLM）的訓練和調優，簡化了幾乎每個行業的模型定制 ? ? 洛杉磯 — SIGGRAPH — 2023

2023-08-09 11:41:59

100

NVIDIA 與 Hugging Face 將連接數百萬開發者與生成式 AI 超級計算

NVIDIA DGX Cloud 集成到 Hugging Face 平臺將加速大語言模型（LLM）的訓練和調優，簡化了幾乎每個行業的模型定制

2023-08-09 11:38:24

653

2023年發布的25個開源大型語言模型總結

大型語言模型(llm)是一種人工智能(AI)，在大量文本和代碼數據集上進行訓練。它們可以用于各種任務，包括生成文本、翻譯語言和編寫不同類型的創意內容。今年開始，人們對開源LLM越來越感興趣。這些模型

2023-08-01 00:21:27

554

清華大學大語言模型綜合性能評估報告發布！哪個模型更優秀？

近日，清華大學新聞與傳播學院發布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領域的一大熱點。它們

2023-08-10 08:32:01

607

MediaTek運用Meta Llama 2大語言模型，賦能終端設備生成式AI應用

2023 年 8 月 24 日 – MediaTek今日宣布利用Meta新一代開源大語言模型（LLM）Llama 2 以及MediaTek先進的AI處理器（APU）和完整的AI開發平臺

2023-08-24 13:41:03

225

Meta發布一款可以使用文本提示生成代碼的大型語言模型Code Llama

今天，Meta發布了Code Llama，一款可以使用文本提示生成代碼的大型語言模型（LLM）。

2023-08-25 09:06:57

885

如何使用加速PyTorrch2.0變異器

加快大型語言模型與加速變形金剛

2023-09-04 16:15:12

281

如何加速生成2 PyTorch擴散模型

加速生成2 PyTorch擴散模型

2023-09-04 16:09:08

782

FPGA加速語言模型如何重塑生成式人工智能

大語言模型的構建通常需要一個大規模的系統來執行該模型，這個模型會持續變大，在其發展到一定程度后，僅靠在CPU上的運行就不再具有成本、功耗或延遲的優勢了。

2023-08-31 15:34:36

505

訓練大語言模型帶來的硬件挑戰

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰，以及GPU和網絡行業如何針對訓練的工作負載不斷優化硬件。

2023-09-01 17:14:56

1046

FPGA加速器支撐ChatGPT類大語言模型創新

，大型語言模型（Large Language Models，LLM）徹底改變了自然語言處理領域，使機器能夠生成類似人類的文本并進行有意義的對話。這些模型，例如OpenAI的GPT，擁有驚人的語言理解和生成能力。它們可以被用于廣泛的自然語言處理任務，包括文本生成、翻譯、自動摘要、情緒分析等

2023-09-04 16:55:25

345

虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

基礎模型和高性能數據層這兩個基本組件始終是創建高效、可擴展語言模型應用的關鍵，利用Redis搭建大語言模型，能夠實現高效可擴展的語義搜索、檢索增強生成、LLM 緩存機制、LLM記憶和持久

2023-09-18 11:26:49

316

大語言模型（LLM）預訓練數據集調研分析

大語言模型涉及數據的通常有有多個階段（Aligning language models to follow instructions [1] ）：pre-train、sft（supervised

2023-09-19 10:00:06

506

從原理到代碼理解語言模型訓練和推理，通俗易懂，快速修煉LLM

要理解大語言模型（LLM），首先要理解它的本質，無論預訓練、微調還是在推理階段，核心都是next token prediction，也就是以自回歸的方式從左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm對大模型推理的流程及優化方案

在 MLC-LLM 部署RWKV World系列模型實戰（3B模型Mac M2解碼可達26tokens/s）中提到要使用mlc-llm部署模型首先需要一個編譯過程，將原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

SambaNova即將建立并運行自己的大型語言模型

隨著各大公司爭相加入人工智能的潮流，芯片和人才供不應求。初創公司SambaNova（https://sambanova.ai/）聲稱，其新處理器可以幫助公司在幾天內建立并運行自己的大型語言模型

2023-09-27 16:10:51

305

怎樣使用FHE實現加密大語言模型？

近來，大語言模型 (LLM) 已被證明是提高編程、內容生成、文本分析、網絡搜索及遠程學習等諸多領域生產力的可靠工具。

2023-10-19 09:13:57

410

周四研討會預告 | 注冊報名 NVIDIA AI Inference Day - 大模型推理線上研討會

由 CSDN 舉辦的 NVIDIA AI Inference Day - 大模型推理線上研討會，將幫助您了解 NVIDIA 開源大型語言模型（LLM）推理加速庫 TensorRT-LLM ?及其功能

2023-10-26 09:05:02

174

現已公開發布！歡迎使用 NVIDIA TensorRT-LLM 優化大語言模型推理

NVIDIA 于 2023 年 10 月 19 日公開發布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和優化最新的大語言模型（Large Language Models）的推理性

2023-10-27 20:05:02

478

在線研討會 | NVIDIA 加速汽車行業大語言模型的開發與應用

，與您面對面探討汽車行業前沿趨勢與未來風向標。大語言模型（LLM）的發展如火如荼，在汽車行業，LLM 可用于自動駕駛加速訓練和推理、智能汽車用戶界面改進、自然語言處理技術集成、車輛診斷和維護建議、市場營銷和客戶支持等多方面，以提高車輛性能和安全性，增

2023-10-27 20:05:02

182

知識圖譜與大模型結合方法概述

；3）LLM+KG協同使用，主要用于知識表示和推理兩個方面。該文綜述了以上三個路線的代表性研究，探討了未來可能的研究方向。知識圖譜（KG）和大語言模型（LLM）都是知識的表示

2023-10-29 15:50:01

530

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B

2023-11-01 17:48:42

422

時間序列的基礎模型像自然語言處理那樣存在嗎

時間序列預測領域在最近的幾年有著快速的發展，比如N-BEATS、N-HiTS、PatchTST和TimesNet。大型語言模型(LLM)最近在ChatGPT等應用程序中變得非常流行，因為它們可以

2023-11-03 10:15:22

279

利用 NVIDIA Jetson 實現生成式 AI

的無限可能性。不同于其他嵌入式平臺，Jetson 能夠在本地運行大語言模型（LLM）、視覺 Transformer 和 stable diffusion，包括在 Jetson AGX Orin

2023-11-07 21:25:01

398

基于檢索的大語言模型簡介

簡介章節講的是比較基礎的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

282

如何給OriginBot安裝大語言模型

包版本沖突，我沒有修復也能直接運行，所以看起來問題不大 ②安裝hobot-dnn sudo apt update sudo apt install -y tros-hobot-llm ③下載模型文件

2023-11-20 15:46:32

164

專欄發布 | LLM圈走馬換將？微軟廣告“黑五”來襲！

過去一年并不平凡。從去年11月至今，LLM大型語言模型持續破圈、始終盤踞熱點話題之列。根據Adobe Analytics的最新在線購物預測，感恩節本土市場假日季的在線收入，或將有

2023-11-27 08:15:02

215

Long-Context下LLM模型架構全面介紹

隨著ChatGPT的快速發展，基于Transformer的大型語言模型(LLM)為人工通用智能(AGI)鋪平了一條革命性的道路，并已應用于知識庫、人機界面和動態代理等不同領域。然而，存在一個普遍

2023-11-27 17:37:36

440

NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持

本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU 以及亞馬遜云科技的 EFA 來訓練其最大的新一代大語言模型（LLM）。大語言模型的一切都很龐大——巨型模型是在數千顆 NVIDIA

2023-11-29 21:15:02

295

怎樣使用Accelerate庫在多GPU上進行LLM推理呢？

大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長，推理的計算需求也顯著增加。

2023-12-01 10:24:52

396

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數十億參數（B+）的預訓練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

如何利用OpenVINO加速LangChain中LLM任務

LangChain 是一個高層級的開源的框架，從字面意義理解，LangChain 可以被用來構建 “語言處理任務的鏈條”，它可以讓AI開發人員把大型語言模型（LLM）的能力和外部數據結合起來，從而

2023-12-05 09:58:14

325

全面解析大語言模型（LLM）

internal feedback：使用LLM去預測生成的plan取得成功的概率、Tree of Thought去對比不同的plan（有點類似AlphaGo的蒙特卡諾搜索的意思）、對中間結果進行評估并作為長期記憶存儲

2023-12-05 14:49:47

857

大規模語言模型的基本概念、發展歷程和構建流程

大規模語言模型（Large Language Models，LLM），也稱大規模語言模型或大型語言模型，是一種由包含數百億以上參數的深度神經網絡構建的語言模型，使用自監督學習方法通過大量無標注

2023-12-07 11:40:43

1141

大語言模型概述

的人工智能模型，旨在理解和生成自然語言文本。這類模型的核心是深度神經網絡，通過大規模的訓練數據和強大的計算能力，使得模型能夠學習到語言的語法、語境和語義等多層次的信息。大語言模型的發展歷史可以追溯到深度學習的

2023-12-21 17:53:59

555

一文詳解LLM模型基本架構

LLM 中非常重要的一個概念是 Token，我們輸入給 LLM 和它輸出的都是 Token。Token 在這里可以看做語言的基本單位，中文一般是詞或字（其實字也是詞）。比如：”我們喜歡 Rust

2023-12-25 10:38:38

657

優于10倍參數模型！微軟發布Orca 2 LLM

微軟發布 Orca 2 LLM，這是 Llama 2 的一個調優版本，性能與包含 10 倍參數的模型相當，甚至更好。

2023-12-26 14:23:16

247

大語言模型使用指南

，帶你發現大語言模型的潛力，解鎖無限可能。揭秘大語言模型的魔法在動手操作之前，我們先來揭秘一下大語言模型的魔法。這些模型通過大量的文本數據進行預訓練，使其具備了超強的理解和生成自然語言的能力。搞懂它的構造和培訓過程

2023-12-29 14:18:59

276

2023年大語言模型(LLM)全面調研：原理、進展、領跑者、挑戰、趨勢

大型語言模型(LLM)是基于人工智能的先進模型，經過訓練，它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學習技術和大量訓練數據來全面理解語言結構、語法、上下文和語義。

2024-01-03 16:05:25

441

美國防部生成式人工智能先期發展動向分析

生成式人工智能（AI）能力，如大型語言模型（LLM）在全球的受歡迎程度、能力和影響力都在不斷增長。這些能力是在大規模數據集上訓練的，以便生成細節和明顯連貫的內容，這在以前需要人類創作。這些能力帶來了新的機遇，同時也帶來了新的重大風險。

2024-01-03 16:30:55

638

大語言模型推斷中的批處理效應

隨著開源預訓練大型語言模型（Large Language Model, LLM ）變得更加強大和開放，越來越多的開發者將大語言模型納入到他們的項目中。其中一個關鍵的適應步驟是將領域特定的文檔集成到預訓練模型中，這被稱為微調。

2024-01-04 12:32:39

228

模型與人類的注意力視角下參數規模擴大與指令微調對模型語言理解的作用

近期的大語言模型（LLM）在自然語言理解和生成上展現出了接近人類的強大能力，遠遠優于先前的BERT等預訓練模型（PLM）。

2024-01-04 14:06:39

139

安霸發布N1系列生成式AI芯片支持前端設備運行本地LLM應用

單顆 SoC 支持 1 至 340 億參數的多模態大模型（Multi-Modal LLM）推理，實現前端低功耗生成式 AI。

2024-01-09 15:19:33

597

安霸發布全新N1系列生成式AI芯片

安霸在CES 2024上發布了全新的N1系列生成式AI芯片，這是一款專門為前端設備設計的芯片，支持本地運行大型語言模型（LLM）應用。其單顆SoC能夠支持1至340億參數的多模態大模型（Multi-Modal LLM）推理，從而實現低功耗的生成式AI功能。

2024-01-09 15:32:54

602

2023年LLM大模型研究進展

作為做LLM應用的副產品，我們提出了RLCD[11]，通過同時使用正例和負例prompt，自動生成帶標簽的生成樣本不需人工標注，然后可以接大模型微調，或者用于訓練reward models

2024-01-19 13:55:33

178

LLM推理加速新范式！推測解碼（Speculative Decoding）最新綜述

這個問題隨著LLM規模的增大愈發嚴重。并且，如下左圖所示，目前LLM常用的自回歸解碼（autoregressive decoding）在每個解碼步只能生成一個token。這導致GPU計算資源利用率

2024-01-29 15:54:24

261

單芯片沒有神經網絡加速器NPU可以玩微型AI應用嗎？

講到AI相信大家第一時間多半是聯想到大型語言模型(LLM)和生成式AI(genAI, AIGC)應用，可以對話聊天、查詢數據、生成文章圖像和音樂，而這些應用多半需要用到極大的云端算力才能完成。

2024-02-20 16:40:33

214

小白學大模型：什么是生成式人工智能？

和軟件，我將這些程序簡稱為“GAIs”。革命開始第一波GAIs主要致力于進行自然語言對話。被稱為“大型語言模型”（LLMs）的這些模型已經展示出在各種任務上超凡的表

2024-02-22 08:27:58

239

100%在樹莓派上執行的LLM項目

ChatGPT的人性口語化回復相信許多人已體驗過，也因此掀起一波大型語言模型（Large Language Model, LLM）熱潮，LLM即ChatGPT背后的主運作技術，但LLM運作需要龐大運算力，因此目前多是在云端（Cloud）上執行。

2024-02-29 16:29:59

476

OpenVINO?助力谷歌大語言模型Gemma實現高速智能推理

大型語言模型（LLM）正在迅速發展，變得更加強大和高效，使人們能夠在廣泛的應用程序中越來越復雜地理解和生成類人文本。

2024-03-17 17:17:08

504

已全部加載完成

搜索歷史

Medusa如何加速大型語言模型（LLM）的生成？

評論