人人看av,啪啪视频导航,大陆视频宅男在线观看

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

《AI演進的核心哲學》提到Google在2017年6月的《Attention is All You Need》論文中首次提出了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer，OpenAI的科學家Alec Radford在讀完這篇論文后，使用BooksCorpus數(shù)據(jù)集（約1GB)，并從Transformer中截取了Decoder部分進行了生成式預(yù)訓練(generative pre-training)，然后再針對具體任務(wù)使用有標注數(shù)據(jù)對預(yù)訓練模型進行監(jiān)督微調(diào)，結(jié)果發(fā)現(xiàn)模型的性能還不錯，在 12 項任務(wù)中的 9 項顯著超越了針對特定任務(wù)設(shè)計的競對模型，達到了當前最佳水平，并于2018年6月發(fā)表了文章《Improving Language Understanding by Generative Pre-Training》，標志著GPT系列模型從此誕生了。GPT就是Generative Pre-Training的首字母縮寫，GPT-1模型包含1.17億參數(shù)。

鏈接：

《Attention is All You Need》：
https://arxiv.org/pdf/1706.03762
《Improving Language Understanding by Generative Pre-Training》：
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

一，GPT-1~GPT-2: 驗證性的演進

OpenAI的首席科學家Ilya Sutskever看到GPT-1的結(jié)果后，非常興奮，他認為這是一個非常關(guān)鍵的可以通向AGI（通用人工智能）的技術(shù)，從此，OpenAI便在GPT-1基礎(chǔ)上開始堅定地執(zhí)行“Scale Up”戰(zhàn)略 -- 通過增加模型參數(shù)、訓練數(shù)據(jù)和計算能力，推動 GPT 系列模型和訓練范式不斷演進。

隨后，OpenAI迅速加大了投入開始研發(fā)GPT-2。GPT-2的目標是探索更大規(guī)模的模型能否在沒有任務(wù)特定訓練數(shù)據(jù)的情況下，僅通過預(yù)訓練就能在多種任務(wù)上表現(xiàn)出色，即所謂的“零樣本”（Zero-shot）能力。為此，OpenAI構(gòu)建了一個更大、更多樣化的WebText數(shù)據(jù)集（約40GB），用更大算力(多塊NVIDIA V100 32GB卡)完成了更大參數(shù)模型的預(yù)訓練。

GPT-2模型參數(shù)有4個版本：Small版有1.17億參數(shù)，對應(yīng)原始的GPT-1；Medium版有3.45億參數(shù)，對應(yīng)競品BERT-large；Large版有7.62億參數(shù)；XL版有15億參數(shù)。GPT-2首次系統(tǒng)性展示了無需微調(diào)即可適應(yīng)多任務(wù)的能力，在8 個測試數(shù)據(jù)集中獲得了7個當下最優(yōu)的成果，證明了大規(guī)模預(yù)訓練模型的強大潛力和 “通用語言模型” 在多任務(wù)場景中的可行性。

OpenAI在2019年2月發(fā)表了文章《Language Models are Unsupervised Multitask Learners》，還開源了GPT-2的代碼: https://github.com/openai/gpt-2和部分數(shù)據(jù)集：https://github.com/openai/gpt-2-output-dataset，成為GPT系列模型中唯一一個開源模型。

鏈接：
《Language Models are Unsupervised Multitask Learners》：
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

二，GPT3：更加激進的演進

GPT-2驗證了“Scale Up”戰(zhàn)略的有效性后，OpenAI開始更加激進的Scale Up。GPT-3的參數(shù)量達到了驚人的1750億，比GPT-2的XL版本提升了100多倍。預(yù)訓練數(shù)據(jù)集也更為龐大，混合了包括Common Crawl（經(jīng)過濾）、WebText2、Books1、Books2和Wikipedia在內(nèi)的的數(shù)據(jù)集（約300B Tokens）。

GPT-3不僅在零樣本任務(wù)上表現(xiàn)出色，更重要的是展示了強大的“少樣本”（Few-shot）甚至“單樣本”（One-shot）學習能力，這意味著只需要在提示詞（Prompt）中給出少量任務(wù)示例，模型就能理解并執(zhí)行新任務(wù)，而無需重新訓練或微調(diào)模型參數(shù)。這種“上下文學習”（In-context Learning）能力是GPT-3的核心突破，它使得模型更加通用和靈活，能夠處理翻譯、問答、寫代碼、作詩、進行簡單推理等各種任務(wù)，極大地推動了Decoder-Only架構(gòu)的大語言模型的研究和應(yīng)用浪潮。

三，規(guī)模定律與能力涌現(xiàn)

在GPT系列模型演進的過程中，OpenAI在2020年1月發(fā)表了文章《Scaling Laws for Neural Language Models》，首次系統(tǒng)性提出的語言模型的“規(guī)模定律（Scaling Laws）”，揭示了模型性能與模型參數(shù)量、訓練數(shù)據(jù)量和計算資源規(guī)模呈指數(shù)級線性相關(guān)。同年5月，OpenAI發(fā)表了文章《Language Models are Few-Shot Learners》介紹GPT-3，讓科技界都開始相信在Decoder-Only架構(gòu)上是能“Scale-Up”的。

隨后，Google也加入了Decoder-Only架構(gòu)的陣營，在2022年4月發(fā)布了5400億參數(shù)的PaLM模型，并證明了隨著參數(shù)提升，Decoder-Only架構(gòu)的模型能力在大多數(shù)任務(wù)場景中都高于前期最優(yōu)方法。同年6月，Google發(fā)表了文章《Emergent Abilities of Large Language Models》，首次系統(tǒng)性地提出了大語言模型的“能力涌現(xiàn)(Emergent Abilities)”現(xiàn)象，即大語言模型在參數(shù)規(guī)模突破臨界閾值后，突現(xiàn)的不可預(yù)測的新能力?，這類能力在小規(guī)模模型上無法出現(xiàn)。

鏈接：
《Scaling Laws for Neural Language Models》：
https://arxiv.org/pdf/2001.08361
《Language Models are Few-Shot Learners》：
https://arxiv.org/pdf/2005.14165

四，啟示1：科研團隊可以從一個小規(guī)模參數(shù)的模型開始

GPT系列模型的演進，以及科技界在Decoder-Only架構(gòu)上的探索，再次證明了Richard S. Sutton提出的哲學思想：使用通用方法，然后借助計算能力Scale Up。由于訓練大規(guī)模參數(shù)的模型成本非常高，例如，公開資料顯示Llama3 405B參數(shù)模型的訓練成本約為6000萬美金，所以科研團隊可以先在一個小規(guī)模參數(shù)的模型上驗證其能力，然后再Scale up。

DeepSeek團隊也受此啟發(fā)，在2024年初，先從16B參數(shù)規(guī)模開始，發(fā)布了DeepSeek-MoE v1；接著在2024年中，把參數(shù)規(guī)模擴展至145B，發(fā)布了DeepSeek-MoE v2; 到DeepSeek-MoE v3時，參數(shù)規(guī)模到671B。DeepSeek的Scale Up的成功，也再次證明了《AI演進的核心哲學》。

五，啟示2：個人初學者可以把GPT-2作為學習起點

從學習的角度，對個人初學者來說，本文認為GPT-2是最佳的Decoder-Only架構(gòu)模型的學習起點：

1. GPT-2算是GPT系列模型真正的起點(GPT-1可以算Decoder-Only架構(gòu)的技術(shù)驗證PoC)。

2. GPT-2的模型參數(shù)規(guī)模適中，能讓讀者成功實現(xiàn)完整的預(yù)訓練過程，且花費不大。

3. GPT-2是GPT系列中唯一的開源模型，有標準代碼實現(xiàn)可以借鑒。

4. 通過動手編寫GPT-2模型并完成預(yù)訓練，可以完整學到Transformer架構(gòu)的大語言模型的核心知識

若你對更多的大語言模型的演進感興趣，可以進一步閱讀《A Survey of Large Language Models》。

鏈接：

《A Survey of Large Language Models》：
https://arxiv.org/pdf/2303.18223

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：[email protected]

更多精彩內(nèi)容請，關(guān)注“算力魔方?”！

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

GPT

GPT

+關(guān)注

關(guān)注
0

文章
368

瀏覽量
16085
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1208

瀏覽量
8914

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

GPT系列模型演進與啟示

評論