女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

李建忠:DeepSeek技術革新引領AI生態(tài)新變革

AI科技大本營 ? 來源:AI科技大本營 ? 2025-02-07 10:41 ? 次閱讀

【導讀】全球 AI 競賽正酣,DeepSeek 的出現(xiàn),宛如一石激水,打破了原有的平靜。作為資深技術專家和行業(yè)觀察者,CSDN 高級副總裁、Boolan 首席技術專家李建忠將在本文撥開“DeepSeek 熱”的表象,深入探究其背后的技術創(chuàng)新邏輯和生態(tài)戰(zhàn)略布局,揭示 DeepSeek 如何在全球 AI 競爭中脫穎而出,并預見其對未來 AI 格局可能產生的深遠影響。

春節(jié)期間,DeepSeek 在全球科技圈引發(fā)強烈震動。“DeepSeek 時刻” 、“國運級創(chuàng)新”等熱議現(xiàn)象在歐美科技界和國內不斷涌現(xiàn),西方主流媒體如《自然》、《紐約時報》、《經濟學人》也紛紛報道,全球科學、技術、金融、政府、軍事等領域的專家政要亦高度關注。盡管對于 DeepSeek 的評價各有側重,但其出圈和影響力已不容忽視。

DeepSeek 到底做了什么?所謂的“DeepSeek 時刻”或者“國運級創(chuàng)新”到底意味著什么?

個人認為 DeepSeek 巨大的影響力不僅僅在于它在 AI 領域實現(xiàn)的幾個方面的關鍵技術創(chuàng)新,更重要的是由其引發(fā)的對全球 AI 生態(tài)版圖的升級和重塑。本文將從以下兩個維度,談談我對 DeepSeek 的創(chuàng)新研究和思考:

(一)DeepSeek 的關鍵技術創(chuàng)新;

(二)DeepSeek 對于大模型的生態(tài)意義。

f61c64a4-e440-11ef-9310-92fbcf53809c.png

DeepSeek 的關鍵技術創(chuàng)新

1.開源強化學習引領推理計算范式轉換

去年 9 月份 OpenAI 發(fā)布的 o1 模型展現(xiàn)了強化學習在推理計算方面的卓越能力,但是 OpenAI 既沒有開源,技術報告也語焉不詳,全球 AI 界雖然對大模型將迎來從預訓練到推理計算的范式轉換抱有很高期待,但一直沒有成功的復現(xiàn)。直到 DeepSeek R1 的出現(xiàn),無論是在以推理為主的各項國際公認的評測指標上、還是實際使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o 等一眾前沿閉源模型。

DeepSeek 的推理計算路線也讓很多業(yè)內專家嘆為觀止,其使用純粹 RL(強化學習),無需 SFT(監(jiān)督微調),不依賴冷啟動數(shù)據,成功地實現(xiàn)了靠純 RL(強化學習)來激勵大模型的推理能力。DeepSeek 在 R1 的訓練中也觀察到了模型推理時“喃喃自語反思錯誤的 Aha Moment”(所謂大模型的“頓悟時刻”)。DeepSeek 的研究人員在其論文中談到,這不僅是大模型的“Aha Moment”,也是研究團隊的“Aha Moment”。

為什么說使用 RL 強化學習來做推理計算,為大模型帶來了新的范式轉換?人類智能的學習行為本質上分兩種:模仿學習和探索學習。

預訓練就是大模型的模仿學習,在 OpenAI o1 和 DeepSeek R1 兩個模型之前,大模型主要進行的是“預訓練”為主的模仿學習。喂給大模型什么樣的數(shù)據,大模型才能學會什么。沒教的一概不會,非要回答就會幻覺說胡話。

強化學習就是大模型的探索學習,這是在 OpenAI o1 和 DeepSeek R1 推理時主要的學習方式。在強化學習支持的推理計算下,大模型會不斷探索優(yōu)化、遇到錯誤會改正自己。不難理解,如果沒有探索學習,僅僅基于預訓練的模仿學習,大模型遇到復雜問題,很難超過人類專家。而有了探索學習,大模型才有可能發(fā)展出遠超人類智能的水平,比如在 AlphaGo 當時大敗圍棋冠軍李世石時著名的第 37 手(move 37),背后就是強化學習的功勞。

強化學習在 AI 領域并不新鮮,但將強化學習泛化地應用在大模型領域,成為大模型推理計算的核心,OpenAI o1 和 DeepSeek R1 屬于開先河者。大模型領域也因此迎來了從預訓練到推理計算的范式轉換,而且因為開源的引領,相信 DeepSeek 有機會成為這一范式轉換的領導者。

順便提一句,DeepSeek 在工程領域也有很多可圈可點之處,比如從純強化學習模型 R0,到使用 SFT、基于 V3 基座模型調教出來既有文采又懂推理、文理雙全的 R1;再比如使用 R1 作為教師模型來蒸餾多個小模型,使得小模型也具備很高的推理能力。這些都會加速大模型向推理計算的范式轉換。

2.MLA 和 MoE 等引領大模型架構創(chuàng)新

自 GPT 采用 Transformer 架構取得成功以來,經典 Transformer 架構一直是很多大模型的標配。但這不意味著 Transformer 是完美無缺的。DeepSeek 在 Transformer 架構的基礎上也做了很多創(chuàng)新,主要包括兩個方面:(1)多頭潛在注意力即 MLA ;(2)混合專家模型即MoE。

MLA 用于高效推理,源自 DeepSeek V2 的原創(chuàng),其顯著降低了推理顯存的消耗。MLA 主要通過改造注意力算子壓縮 KV 緩存大小,將每個查詢 KV 量減少 93.3%,實現(xiàn)了在同樣容量下存儲更多 KV 緩存,極大提升了推理效率。

MoE 用于高效訓練,其由多個專家模型組成,通過部分激活給定任務所需的特定專家,而不是激活整個神經網絡,從而降低計算消耗。MoE 非 DeepSeek 原創(chuàng),但 DeepSeek 早在 V2 之前的代碼和數(shù)學模型(DeepSeek-Coder&DeepSeek-Math),就從稠密架構轉向 MoE 架構。V3 模型中更是大膽地使用了高難度的 256 個路由專家和 1 個共享專家,并創(chuàng)新的采用冗余專家,來實現(xiàn)負載均衡策略和訓練目標。

3.“貼身定制”的軟硬協(xié)同工程優(yōu)化

由于眾所周知的“芯片限制”,DeepSeek 在探索推理范式和模型架構創(chuàng)新的同時,在工程優(yōu)化方面也絲毫沒有放松。分別從計算、存儲、通信等多個層面實施了軟硬協(xié)同的工程優(yōu)化策略:比如混合精度訓練、跨節(jié)點通信優(yōu)化、雙流水線機制、DualPipe 算法等。甚至采用 PTX 代碼(比 CUDA 更底層的匯編代碼)進行底層優(yōu)化,實現(xiàn)調整寄存器分配、線程調度、Warp 級別優(yōu)化。

這種圍繞模型需求,對硬件進行“貼身定制”的軟硬協(xié)同工程優(yōu)化,在一些手握充裕 GPU 卡資源的硅谷大廠技術人員眼里,很像一些“雕蟲小技”。但我想說的是,技術界的雕蟲小技不可小覷,技術領域的創(chuàng)新往往是從這些雕蟲小技開始的。

回顧一下計算歷史:Hadoop 如何倒逼 EMC、IBM 重構存儲架構?ARM 精簡指令集如何用低功耗設計顛覆英特爾 x86 帝國?TCP/IP 協(xié)議棧如何倒逼傳統(tǒng)網絡設備革命?記得圖靈獎得主、RISC 指令發(fā)明人 David Patterson 曾經有言“硬件架構的創(chuàng)新往往誕生于軟件需求對硬件的持續(xù)鞭策”。

如果假以時日,DeepSeek 成為開源大模型領域的標配后,很難說不會出現(xiàn)用“軟件定義硬件”或者說“模型定義硬件”來倒逼硬件廠商,走出一條顛覆英偉達 CUDA 生態(tài)的道路。

f62db89e-e440-11ef-9310-92fbcf53809c.png

DeepSeek 對大模型生態(tài)的意義

1.大模型成本降到和搜索相當,AI 應用和智能體迎來爆發(fā)

DeepSeek 無疑引爆了大模型的成本之戰(zhàn):(1)自身通過“模型架構創(chuàng)新”和“軟硬件協(xié)同工程優(yōu)化”將大模型訓練成本大幅度降低,大約是 Meta 的 1/10,OpenAI 的 1/20;(2)通過最開放的 MIT 開源協(xié)議,和將推理大模型蒸餾給開源小模型等一系列工程方法,為業(yè)界帶來低成本的端側模型商品

谷歌一次搜索成本大約 0.2 美分(0.002 美元),DeepSeek R1 推理成本百萬 token 輸出 16 元(2.2 美元), V3 對話輸出百萬 token 2 元(這只是 DeepSeek 官網對外的 API 價格,如果考慮實際發(fā)生的推理成本、會更低)。

作為對比:OpenAI o1 百萬 token 輸出 60 美元,是 DeepSeek R1 的 30 倍。如果假設平均一次推理輸出大約 1000 token(相當于大約 500 個漢字)。那么 DeepSeek 一次推理輸出價格大約 2.2 美元/1000 次=0.2 美分,對話輸出大約 0.025 美分。

也就是說,DeepSeek將大模型的推理輸出降到和谷歌一次搜索成本的價格相當,對話輸出則大約是搜索的 1/10。這是具有指標意義的時刻。

我記得 2023 年 4 月份在硅谷訪問時和 Google 做搜索的朋友聊,他談到他們內部從上到下對 ChatGPT 持相當觀望的態(tài)度,因為如果按照當時大模型的成本,來對比谷歌的搜索成本,谷歌馬上會從一個盈利 600 億美金的公司,變成一個虧損上千億美金的公司。雖然,大家都預期大模型的成本會不斷降低,但沒想到不到 2 年時間,降低如此之快。

成本一直是技術革命背后的利器。搜索作為互聯(lián)網的基礎設施,正是因為極低的成本,才能快速完成對全球信息的整合,引爆了互聯(lián)網革命。而 DeepSeek 在 2025 年開年將大模型成本降到和搜索相當,加上性價比極高的端側模型,大模型將很快成為各種應用的基座支撐,GenAI 也將迎來應用爆發(fā)的 tipping point。同時隨著強化學習在推理計算帶來的范式轉換,依賴推理能力的智能體 AI Agent 也將迎來加速,2025 年將是大模型應用和智能體爆發(fā)的元年。

2.AI 鐵三角迎來新的變量,AI 產業(yè)版圖有望被重塑

算法、算力、數(shù)據一直是 AI 的鐵三角。隨著大模型成為 AI 科技樹的主流,基于 Transformer 架構、以預訓練為主的模型算法,及其展現(xiàn)的 Scaling Law 一直在向業(yè)界傳達一個信息:算力決定一切,訓練數(shù)據越多、算力越大,模型性能就會越來越好,所謂“大力出奇跡“。AI 產業(yè)的競爭也變成了“誰擁有 GPU 越多、誰的 AI 能力越強”的軍備競賽。

但 DeepSeek 分別從 “后訓練”和“預訓練”兩個階段對這樣的唯算力論提出了響亮的質疑:

(1)后訓練階段——開源強化學習加速推理計算的范式轉換:隨著強化學習成為后訓練階段的標配,推理計算將占比越來越大(相對預訓練計算)。適應預訓練模式的 GPU 大卡集群計算(英偉達的優(yōu)勢)將不再是未來 AI 算力需求的主流,而英偉達在推理計算方面的優(yōu)勢相對較弱,很多頭部廠商如谷歌 TPU、AWS Inferentia、華為昇騰等專為推理優(yōu)化的芯片,在特定負載下能效比顯著高于通用 GPU,加上適應多元推理場景的分布式計算、邊緣計算、端側計算,推理算力領域將不會是英偉達一家獨大的局面。

(2)預訓練階段——通過 MoE 和 MLA 等對經典 Transformer 架構進行的改進和迭代:這使得 DeepSeek 使用少于同行 10~20 倍的算力,完成了同等規(guī)模的預訓練。另外,DeepSeek 使用 R1 作為教師模型來實現(xiàn)對小模型的“強化學習推理能力”蒸餾的工程實踐,也會為很多模型訓練帶來一波紅利。

DeepSeek 從 “后訓練”和“預訓練”兩階段對 AI 算法進行的創(chuàng)新,為“算法、算力、數(shù)據”構建的 AI 鐵三角帶來新的變量,有機會重新塑造未來 AI 產業(yè)的發(fā)展版圖。

3.開源的長期主義是創(chuàng)新?lián)u籃

最后,說說 DeepSeek 的開源戰(zhàn)略。DeepSeek 支持商業(yè)友好的 MIT 許可證(最為寬松的開源協(xié)議之一),開源模型權重,沒有對下游應用的限制(比如合成數(shù)據、蒸餾等)。論文開放的技術細節(jié)也很有誠意。在全球排名 Top 10 的頭部模型中,DeepSeek 是開源程度最高的,比最早扛起開源大旗的 Meta 的 LLaMA 還要更 Open。這也是 DeepSeek V3 和 R1 在海內外引起眾多權威專家、大佬認可+尊重、甚至贊不絕口的原因。不隱藏、不吹噓,模型、評測、原理等都結結實實擺在那里。

順便說一句, DeepSeek 的論文從一開始就大大方方地承認了其在微觀設計上遵循了 LLaMA 的設計。相對國內各種扭扭捏捏、遮遮掩掩的“半開源”,以及違背開源協(xié)議、使用開源實現(xiàn)自己的閉源,DeepSeek 在模型開源方面可以說相當慷慨、也很敞亮。

DeepSeek 實際上在第一天就擁抱開源,回想起早期閱讀《DeepSeek LLM :用長期主義來擴展開源語言模型》 這篇 DeepSeek 于 2024 年 1 月發(fā)表的論文,對開源的信仰和宣言,讀起來讓人心生敬意。深層次來看,DeepSeek 是真正深刻領悟開源精神、站在全人類創(chuàng)新的高度、從戰(zhàn)略而非戰(zhàn)術上擁抱開源的。

摘抄 DeepSeek 創(chuàng)始人梁文鋒 2024 年 7 月份接受采訪中的一段話“我們認為當下最重要的,是參與全球科技創(chuàng)新。長期以來,中國企業(yè)習慣于利用海外的技術創(chuàng)新,并通過應用層面進行商業(yè)化,但這種模式是不可持續(xù)的。我們的目標不是快速盈利,而是推動技術前沿的發(fā)展,從根本上促進整個生態(tài)的成長。開源和發(fā)表論文不會帶來重大損失。對于技術人員來說,被同行追隨本身就是一種成就。開源不僅僅是商業(yè)策略,更是一種文化。”以此觀之,2025 年 1 月,DeepSeek V3 和 R1 給全球 AI 界帶來的震撼,不足為奇。

DeepSeek 的成功點亮了中國技術界最純粹、最原始的創(chuàng)新火種,他們會激勵一代又一代的中國技術人為全世界做出自己獨特的創(chuàng)新。致敬 DeepSeek。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    34146

    瀏覽量

    275304
  • DeepSeek
    +關注

    關注

    1

    文章

    772

    瀏覽量

    1318

原文標題:李建忠:DeepSeek 關鍵技術創(chuàng)新及對 AI 生態(tài)的影響

文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    光伏電站智能運維:技術革新引領綠色能源新時代

    ?????? 光伏電站智能運維:技術革新引領綠色能源新時代 ?????? 在全球追求可持續(xù)發(fā)展目標的大背景下,光伏電站作為清潔能源的重要來源,其重要性不言而喻。然而,隨著光伏電站規(guī)模的擴大和分布區(qū)
    的頭像 發(fā)表于 03-25 16:19 ?285次閱讀
    光伏電站智能運維:<b class='flag-5'>技術革新</b><b class='flag-5'>引領</b>綠色能源新時代

    EVASH芯片公司接入DeepSeekAI驅動的芯片設計革新

    EVASH芯片公司接入DeepSeekAI驅動的芯片設計革新
    的頭像 發(fā)表于 03-03 17:45 ?343次閱讀

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......

    、關于FPGA的未來——“無限可能的未來世界” AI時代的FPGA未來前景如何?FPGA+AI如何重塑未來芯片生態(tài)? 看看大聰明DeepSeek如何預測FPGA的前景......1.
    發(fā)表于 03-03 11:21

    DeepSeek模型引領AI變革,廣電運通率先集成應用

    近日,DeepSeek系列模型因其卓越的推理能力,在大模型領域掀起熱議,成為新的焦點。面對AI技術的新一輪變革,廣電運通迅速響應,依托自研的悟道知識中臺,成功集成了
    的頭像 發(fā)表于 02-18 14:28 ?723次閱讀

    AI賦能邊緣網關:開啟智能時代的新藍海

    。這一變革不僅帶來了技術架構的革新,更為產業(yè)發(fā)展開辟了新的增長空間。 傳統(tǒng)邊緣網關受限于計算能力和算法支持,往往只能完成數(shù)據采集和簡單處理,大量原始數(shù)據需要回傳云端處理,導致響應延遲和帶寬壓力。
    發(fā)表于 02-15 11:41

    IBM CEO:DeepSeek將加速AI技術采用

    在迪拜舉行的世界政府峰會上,IBM首席執(zhí)行官Arvind Krishna發(fā)表了對人工智能(AI)技術發(fā)展的重要見解。他指出,隨著DeepSeek等新興企業(yè)的崛起,開發(fā)AI模型的成本估算
    的頭像 發(fā)表于 02-12 11:40 ?504次閱讀

    引領少兒 AI 編程教育革新!英荔教育率先接入 DeepSeek

    智能、更易用、更具創(chuàng)造力的 AI 編程學習工具,助力下一代在 AI 時代搶占先機。 技術賦能教育,引領行業(yè)變革 英荔
    的頭像 發(fā)表于 02-11 13:16 ?705次閱讀

    新華三全面接入DeepSeek引領AI發(fā)展新熱潮

    DeepSeek,更秉持開放的大模型策略,積極擁抱AI技術變革。結合其創(chuàng)新的圖靈中試基地,以及多年來在各行各業(yè)中積累的深厚經驗,新華三推出了三大重磅產品發(fā)布。 這三大發(fā)布不僅展示了
    的頭像 發(fā)表于 02-10 15:12 ?598次閱讀

    DeepSeek:引領全球AI競賽的中國新范式

    在全球人工智能(AI技術迭代日益加速的今天,一家名為深度求索(DeepSeek)的中國AI公司正以獨特的路徑引發(fā)國際關注。從開源社區(qū)的技術
    的頭像 發(fā)表于 02-09 10:31 ?808次閱讀

    蓄電池放電技術革新引領能源存儲新時代

    研發(fā),致力于實現(xiàn)更高效、更安全、更環(huán)保的蓄電池放電技術。 智能化放電管理系統(tǒng)是當前蓄電池放電技術革新的一個重要方向。通過集成先進的傳感器、微處理器和控制算法,這些系統(tǒng)能夠實時監(jiān)測電池狀態(tài),精確控制放電
    發(fā)表于 02-08 12:59

    吉利汽車與DeepSeek深度融合,引領智能汽車AI新紀元

    DeepSeek共同推動AI科技在智能汽車領域的革新與普及。 此次合作,吉利將DeepSeek R1大模型的頂尖認知能力融入其智能汽車全域AI
    的頭像 發(fā)表于 02-08 10:47 ?876次閱讀

    研華AI Agent引領工業(yè)物聯(lián)網應用革新

    在工業(yè)物聯(lián)網領域,變革正在發(fā)生。研華AI Agent引領工業(yè)物聯(lián)網應用革新,以創(chuàng)新重構為核心,挖掘AI潛力,賦能行業(yè)智能轉型。
    的頭像 發(fā)表于 01-22 18:01 ?919次閱讀

    技術革新AI與RFID的融合,亞馬遜引領零售行業(yè)變革

    )、RFID(無線射頻識別)技術以及先進的攝像頭和傳感器網絡,為顧客提供了前所未有的無摩擦購物體驗。 技術革新AI與RFID的融合 亞馬遜的Just Walk Out系統(tǒng)自八年前推出以來,不斷進化與優(yōu)化。早期版本主要依賴于攝像
    的頭像 發(fā)表于 09-09 16:04 ?579次閱讀

    全球視野下的PCB線路板:技術革新引領產業(yè)變革

    PCB線路板,即印刷電路板,作為現(xiàn)代電子設備中不可或缺的基礎構件,承載著電子元器件之間的連接與信號傳輸任務。其發(fā)展歷程見證了電子工業(yè)的技術革新與產業(yè)變革。本文將從全球和中國兩個維度,梳理PCB線路板的發(fā)展歷史,并探討其在現(xiàn)代電子工業(yè)中的地位與作用。
    的頭像 發(fā)表于 07-15 09:47 ?1012次閱讀
    全球視野下的PCB線路板:<b class='flag-5'>技術革新</b><b class='flag-5'>引領</b>產業(yè)<b class='flag-5'>變革</b>

    移遠通信引領5G技術革新,構建物聯(lián)網生態(tài)

    隨著5G技術的飛速發(fā)展,物聯(lián)網行業(yè)正迎來前所未有的變革。移遠通信,作為全球物聯(lián)網領域的領軍者,正全面發(fā)力,加速推進5G技術服務社會的發(fā)展,為行業(yè)生態(tài)鏈的逐步形成貢獻力量。
    的頭像 發(fā)表于 06-12 15:48 ?628次閱讀