女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI演進的核心哲學:使用通用方法,然后Scale Up!

jf_23871869 ? 來源:劉力 ? 作者:劉力 ? 2025-04-09 14:31 ? 次閱讀

作者:算力魔方創始人/英特爾創新大使劉力

一,AI演進的核心哲學:通用方法 + 計算能力


Richard S. Sutton在《The Bitter Lesson》一文中提到,“回顧AI研究歷史,得到一個AI發展的重要歷史教訓:利用計算能力的通用方法最終是最有效的,而且優勢明顯”。核心原因是摩爾定律,即單位計算成本持續指數級下降。大多數 AI 研究假設可用計算資源是固定的,所以依賴人類知識來提高性能,但長期來看,計算能力的大幅提升才是推進AI演進的關鍵。

《The Bitter Lesson》原文鏈接:
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

wKgZPGf2FAWAFpHlAAIkD2BE5d4176.png


把不同時期的AI代表算法和典型計算硬件放到一起,可以看出,依賴人類知識的算法(比如手工設計規則)在某段時期內效果暫時領先,但隨著計算能力的發展,會被 “更通用的方法 + 更強的計算” 碾壓。計算機視覺和自然語言處理的算法演進,都符合這個規律。

計算機視覺:在CPU時代,手工特征(SIFT/HOG) + SVM的方法暫時領先。到了GPU時代,基于更通用的方法(CNN) + 更強的計算(GTX-580)的AlexNet在2012年,以15.3%的Top-5 錯誤率碾壓了所有基于人類手工提取特征的方法。在多卡并行時代,Transformer擯棄了CNN注入的人類知識(認為相鄰像素關聯性強),使用自身的自注意力能力自行捕捉全局依賴,使得通用目標識別水平更上一層樓,碾壓CNN。

自然語言處理:在CPU時代,最初使用n-gram方法學習單詞分布,以此通過前一個字符來預測后一個字符(單詞分布決定字符關聯就是人類知識)。n-gram的記憶能力有限,能生成一定長度的語句,但在幾十個詞規模的生成能力就不行了。到了GPU時代,更通用的方法RNN,可以逐個閱讀單詞的同時更新思維狀態,具備了短期記憶能力;LSTM在RNN基礎上增加了長期記憶能力,能在百詞內較好的生成內容,但在幾百詞的生成規模上,就會逐漸偏離主題。在多卡并行時代,Transformer擯棄了RNN注入的人類知識(時序依賴關系是關鍵,當前狀態依賴歷史狀態),使用自身的自注意力能力自行捕捉長程依賴,其生成能力在多個領域能超過人類水平,碾壓RNN。

AI 的未來屬于通用方法(搜索和學習)+ 無限提升的計算能力,而不是人類對具體問題的 “聰明解法”。越通用的人工智能,方法應該越簡單,建模時應該越少人類知識的假設才對。我們應該讓 AI 自己通過計算和數據去發現規律,而不是教它 “我們認為正確”的東西。

二,Transformer: 更加通用的神經網絡架構


《Attention is All You Need》在2017年首次提出了一種全新的神經網絡架構Transformer架構,它完全基于注意力機制,從全局角度“觀察和學習”數據的重要特征,相比循環神經網絡(RNN)和卷積神經網絡(CNN),注入的人類先驗知識更少,方法更通用:

CNN注入了相鄰像素關聯性強的人類知識,導致CNN無法處理不具備該假設的信息,例如:自然語言。

RNN假設了“時序依賴關系”是關鍵,當前狀態依賴歷史狀態(通過隱藏狀態傳遞信息),導致RNN無法處理不具備該假設的信息,例如:圖像。

Transformer使用自身的自注意力能力自行捕捉數據中的關系,即通過自注意力能力從全局角度“觀察和學習”數據的重要特征。只要信息能從全局角度被觀察和學習,那么該信息就能被Transformer處理。文本、圖像、聲音等信息,都滿足該要求,所以,都能統一到Transformer架構上進行處理。各種模態信息在進入Transformer前,只需要把信息Token化,即切成一個個小塊就行。

wKgZPGf2E-yAHCBIAACykTI5pws739.png

《Attention is All You Need》原文鏈接:
https://arxiv.org/pdf/1706.03762
CNN/RNN/Transformer分析對比表

在多機多卡算力時代,Transformer是比CNN和RNN更加通用的神經網絡架構。

三,Decode-Only: 更加通用的大語言模型架構


《Attention is All You Need》提出了Transformer架構后,大語言模型的技術探索出現三個方向:僅使用左邊紅色框部分的Encoder-Only,僅使用右邊綠色框的Decoder-Only和全部都使用的Encoder-Decoder。???????

《Attention is All You Need》原文鏈接:
https://arxiv.org/pdf/1706.03762

wKgZO2f2FCWAO-YcAAIK6LPiAdA086.png


Encoder-Only:僅使用左邊紅色框中的編碼器部分構建大語言模型,這個方向一開始主要有Google、Baidu等參與,代表模型有BERT、ERNIE等。Encoder-Only模型是掩碼語言模型(Masked Language Model),使用雙向注意力機制,即訓練模型時,提供預測字符的雙向上下文,這有點兒類似完形填空,從一句話中隨機挖掉一個字(例如:白_依山盡),然后預測被挖掉字。由于模型能獲得預測字符之前(過去)和之后(未來)的上下文,所以能高效學習上下文語義,體現出強大的文本語義理解能力,常用于情感分析、閱讀理解和文本分類等任務。但也正是由于模型在預測時同時受過去和未來雙向的上下文限制,導致在生成文本時表現質量不高和多樣性低,不太符合用戶的預期。隨著 AI 應用向文本創作、對話系統、代碼生成等方向擴展,Encoder-only 架構難以滿足AIGC應用的生成需求,所以,在2021年后,這個方向就停止演進了。

Decoder-Only: 僅使用右邊綠色框中的解碼器部分構建大語言模型,這個方向主要由OpenAI主導,代表模型是GPT系列模型。Decoder-Only模型是自回歸語言模型(Autoregressive Language Modeling),使用因果注意力機制,即訓練模型時,不能看見右側(未來)的上下文,只能使用左側(過去)的上下文預測下一個字符(Token),這有點兒類似故事續寫,給出前面的字(例如:白_),然后預測下一個字。由于模型只能獲得預測字符之前(過去)的上下文,訓練起來更難,需要更大的數據集和更強的算力。2020年發布的GPT-3證明了 Decoder-Only 架構在大規模數據上能夠更好地學習語言的統計規律和模式,不僅在生成文本時表現出更高的質量和多樣性,還顯著增強了語言理解的能力,使得模型能夠更好地理解用戶的意圖和需求,并據此生成更加符合用戶期望的文本。由此,在2021年后,Google、Baidu、Meta等廠家都轉向了Decoder-Only架構。

Encoder-Decoder:同時使用編碼器和解碼器部分構建大語言模型,這個方向主要由Google、ZhipuAI在探索,代表模型有T5、GLM等。該構架雖然能兼顧Encoder-Only和Decoder-Only架構的優勢,但相對Decoder-Only架構,訓練成本高2~5倍、推理成本高2~3倍,所以,僅用于一些需要嚴格雙向理解的細分領域(如多模態生成任務),其發展被 Decoder-only 大大超越。

JINGFENG YANG等在《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,

https://arxiv.org/pdf/2304.13712
展現出了大語言模型架構的演進全景圖。上述演進趨勢可以從下圖中看出:

wKgZPGf2FDKAQOa2ABT6FyNvs0E842.png

2023年后的主流大語言模型(如GPT-4、ERNIE4.0、Llama3...)均采用Decoder-Only架構,核心原因正是 Decoder-Only架構比其它兩個架構更簡單、更通用,在計算能力飛速發展的大趨勢下, Decoder-Only架構擁有更大的Scale up的潛力 -- 即保持核心架構不變的情況下,通過增加訓練數據,擴大模型參數規模和提升計算能力,可以進一步提升模型能力。

四???????,總結


大語言模型的演進過程,再次證明了Richard S. Sutton在《The Bitter Lesson》

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
提到的AI能力演進的哲學思想:使用通用方法,然后借助計算能力Scale Up。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:[email protected]

更多精彩內容請關注“算力魔方?”!

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    34173

    瀏覽量

    275339
  • 語言模型
    +關注

    關注

    0

    文章

    558

    瀏覽量

    10668
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    一文詳解基于以太網的GPU Scale-UP網絡

    最近Intel Gaudi-3的發布,基于RoCE的Scale-UP互聯,再加上Jim Keller也在談用以太網替代NVLink。
    的頭像 發表于 04-22 17:22 ?5103次閱讀
    一文詳解基于以太網的GPU <b class='flag-5'>Scale-UP</b>網絡

    Scale out成高性能計算更優解,通用互聯技術大有可為

    電子發燒友網報道(文/吳子鵬)從聊天機器人程序ChatGPT,到文生視頻大模型Sora,AI大模型的蓬勃發展背后,為算法模型、高質量數據、算力基礎設施帶來了持續的挑戰。“當企業通過Scale out
    的頭像 發表于 04-07 00:06 ?3299次閱讀
    <b class='flag-5'>Scale</b> out成高性能計算更優解,<b class='flag-5'>通用</b>互聯技術大有可為

    Unix哲學歸納

    Douglas McIlroy是Unix系統上管道機制的發明者,也是Unix文化的締造者之一。他歸納的Unix哲學如下:程序應該只關注一個目標,并盡可能把它做好。讓程序能夠互相協同工作。應該讓程序處理文本數據流,因為這是一個通用的接口。
    發表于 07-10 07:05

    AI核心是什么?

    AI概念籠統,范圍廣大,到底什么才是AI核心?手把手教你設計人工智能芯片及系統(全階設計教程+AI芯片FPGA實現+開發板)詳情鏈接:http://url.elecfans.com/
    發表于 10-18 06:39

    深度學習推理和計算-通用AI核心

    ,支持廣泛的應用程序和動態工作負載。本文將討論這些行業挑戰可以在不同級別的硬件和軟件設計采用Xilinx VERSAL AI核心,業界首創自適應計算加速平臺超越了CPU/GPU和FPGA的性能。
    發表于 11-01 09:28

    AGI:走向通用人工智能的【生命學&哲學&科學】第一篇——生命、意識、五行、易經、量子 精選資料分享

    AGI:走向通用人工智能的【生命學&哲學&科學】第一篇——生命、意識、五行、易經、量子經典的物理統一在原子上,量子的物理統一在量子上,化學統一在元素上,而生命統一在DNA上,DNA
    發表于 07-26 06:57

    TB-96AI是什么?TB-96AI核心板有哪些核心功能

    產品概述?TB-96AI是由Linaro、Rockchip、Bearkey三方聯合研發的全球第一款符合96Boards Compute SOM規范的面向人工智能領域的高性能嵌入式AI核心板,并由
    發表于 06-20 16:28

    CDMA2000核心演進組網策略探討

    摘要 文章首先闡述了CDMA2000的發展現狀,分析了不同的CDMA2000 1X網絡演進路線,然后針對新建運營商或已有CDMA2000 1X的網絡運營商,給出了CDMA2000核心網電路域、分
    發表于 06-15 17:13 ?1700次閱讀

    CDMA核心網向LTE演進分析

    CDMA核心網向LTE演進分析
    發表于 01-14 11:23 ?29次下載

    通用串行總線USB技術演進及測試方案

    通用串行總線USB技術演進及測試方案說明。
    發表于 03-30 09:36 ?7次下載
    <b class='flag-5'>通用</b>串行總線USB技術<b class='flag-5'>演進</b>及測試方案

    AI引擎編程:卡恩進程網絡演進

    電子發燒友網站提供《AI引擎編程:卡恩進程網絡演進.pdf》資料免費下載
    發表于 09-13 17:24 ?0次下載
    <b class='flag-5'>AI</b>引擎編程:卡恩進程網絡<b class='flag-5'>演進</b>

    IBM推出專為AI打造的全新Storage Scale System 6000

    Storage Scale System 6000擁有高性能并行文件系統,能夠從容應對數據密集型AI工作負載。它為只讀工作負載提供高達700萬次的IOPS(每秒輸入/輸出操作)和最高256 GB/秒的數據吞吐量。這樣的性能水平可確保AI
    的頭像 發表于 11-01 16:51 ?910次閱讀

    人工智能初創企業Scale AI融資10億美元

    近日,人工智能領域的初創翹楚Scale AI宣布在F輪融資中成功籌集到10億美元,使得其估值達到了驚人的138億美元,較之前的估值實現了近乎翻倍的增長。
    的頭像 發表于 05-24 09:22 ?875次閱讀

    奇異摩爾分享計算芯片Scale Up片間互聯新途徑

    開放數據中心委員會ODCC冬季全員會議于12月4日-6日在春暖花開的昆明舉行。奇異摩爾首席系統架構師朱琛作為網絡工作組ETH-X超節點項目的核心成員分享了AI Networking Scale
    的頭像 發表于 12-09 09:36 ?1206次閱讀
    奇異摩爾分享計算芯片<b class='flag-5'>Scale</b> <b class='flag-5'>Up</b>片間互聯新途徑

    華為發布業界首個AI核心

    在MWC25巴塞羅那期間舉辦的產品與解決方案發布會上,華為云核心網產品線總裁高治國面向全球發布了業界首個AI核心網。AI核心網從
    的頭像 發表于 03-05 10:13 ?390次閱讀