福利视频高清无码强奸乱伦,久久影院AV,中文字幕人成乱码不卡

作者 | ZeR0來源 | 智東西（ID：zhidxcom）

智東西2月3日報道，周日晚間，五位高校教授夜話DeepSeek，從模型方法、框架、系統、基礎設施等角度，闡述DeepSeek的技術原理與未來方向，揭秘其優化方法如何提升算力能效，信息量很大。如何復現o1大推理模型？DeepSeek R1技術路線和訓練流程有哪些亮點？為什么DeepSeek能做到轟動全球？DeepSeek通過哪些優化策略有效降低成本？DeepSeek的寫作能力為何飛躍？MoE架構會是最優解嗎？PTX是否真正做到了繞開CUDA的壟斷？這些業界關注焦點話題被一一解答。北京交通大學教授、CCF YOCSEF AC副主席金一主持了這場線上分享。復旦大學教授邱錫鵬，清華大學長聘副教授劉知遠，清華大學教授翟季冬，上海交通大學副教授戴國浩，分別從不同專業角度分享了對DeepSeek的思考，并延伸到對中國大模型高質量發展路徑的啟發。邱錫鵬教授主持開發了國內首個開源對話式大語言模型MOSS。劉知遠教授是大模型創企面壁智能的首席科學家。翟季冬教授是AI基礎設施創企清程極智的首席科學家。戴國浩教授是AI基礎設施創企無問芯穹的聯合創始人。

以下是實錄整理（為提高閱讀體驗已做精編）：

一、邱錫鵬：解讀R1技術路線圖，強推理模型最終落腳點是Agent

給大家分享一下關于DeepSeek的一些思考和啟發。OpenAI o1也是一個非?，F象級的推理模型，在競賽題目上達到了人類專家水平。OpenAI推出了一個AGI規劃，推理在其中是非常重要的一步。那么在去年Ilya（前OpenAI首席科學家）曾經說過，我們的預訓練可能時代可能即將結束了。其中一個非常重要的原因就是數據沒有在增長。OpenAI可能會打破這種數據不增長的范式，繼續推動Scaling Law向前發展。不過因為沒有數據，所以它的目標可能就轉向到比如強化學習、推理時計算這種Scaling。推理長度越長，它的性能可以繼續得以改進。這使得大家對下一代大模型的發展抱以新期望。所以我們可以看到o1的各種復現層出不窮。業界非常多的o1復現可能基于比如SFT或者蒸餾的路線。但是其實o1的核心應該還是從RL（強化學習）開始。我們去年也剛好寫了一篇o1的綜述。所以我簡單以此為概括來看一下o1的四個核心。在強化學習的框架下，大語言模型充當了一個Agent。每個Action是預測Next Token或者Step或者Solution，看不同顆粒度。大模型輸入作為State。Policy就是給定當前的步驟或者Talk或者Solution來生成下一階段的Action。在強化學習的框架下重新看大推理模型，它有四個重要因素：

一是策略初始化（Policy Initialization），通過預訓練、提示工程、監督微調，讓模型具有初始的類人推理行為，比如問題理解、任務分解、驗證修正錯誤等。

二是獎勵設計（Reward Design），為RL提供獎勵信號。傳統方法分為兩種，一是從環境直接獲取獎勵信號，二是從專家數據或者偏好數據學習獎勵。o1應該是混合了多種獎勵設計的方法。比如有ground truth的環境，將結果監督（ORM）轉換為過程監督（PRM）。沒有ground truth的話，就用專家或者偏好數據來學習獎勵。在大量領域上訓練獎勵模型，提升泛化性。

三是搜索（Search），找尋問題的最優解法。傳統方法基本分為兩大類，基于樹的搜索和基于順序修改的搜索。這兩種可能對復現o1都有非常大的幫助。

四是學習（Learning），優化模型參數。基本上就是一個是用強學習的Policy Gradient，還有一個Behavior Cloning。這兩種基本上可以用在兩個階段：Warmup階段可以使用行為克隆方法，快速收斂；第二階段再用強化學習來提升上限。

復現o1大推理模型，基本上都要從這四個方面下功夫。R1發布有兩個模型，一個是R1-Zero。R1-Zero從一個基模型開始，純RL驅動，經過比如Warmup階段，它有了一個Reward，讓模型具有一個類人回復。比如先給一些prompt，就是要求你的思考要在比如兩個Thinking之間，答案要在兩個Answer的tag之間，然后用最終結果的正確性和是不是符合這種格式來作為Reward，然后對模型進行獎勵。在R1的訓練過程中，我們可以看到，隨著訓練步驟的增加，它逐漸涌現出這種長CoT（思維鏈）能力，它的推理路徑會越來越長。另外它也發現了一些“aha moment”，模型訓練過程中能夠自我發現，可以嘗試修復一些以前的推理。

在純強化學習訓練中，它的性能可以不斷提升。但它有一些不足，它的可讀性比較差，還有language mixing（語言混雜）問題，中英文可能會混雜輸出。這也是下一步真正的R1要解決的兩個問題。和R1-Zero不同的是，R1模型分為四個階段來進行。左邊這張圖是參考了一個知乎問答的路線圖，畫得非常清楚。

第一階段是冷啟動，一開始要收集少量的Long-CoT數據來微調模型，目的是防止早期訓練不穩定和可讀性差問題。第二階段是推理導向的強化學習，它以DeepSeek-V3為基礎，針對推理密集型任務，用和R1-Zero相同的大規模RL來進行訓練。同時它為了解決語言混雜問題，引入了語言一致性獎勵。第三階段是拒絕抽樣和監督微調，要真正訓練R1了，所以它將第一階段的模型加上一些抽樣，結合其他領域的SFT數據，增強模型在寫作、角色扮演和其他通用任務中的能力。第四階段是適用于所有場景的強化學習，數據準備好、進行微調之后，再以DeepSeek-V3為基礎，先是SFT，然后進行所有場景的RL。對于推理任務就用基于規則的獎勵來指導，對于一般任務就用RLHF（人類反饋強化學習）這種方式來進行。這基本上就是R1的技術路線。我簡單列一些關于DeepSeek R1的思考和啟發：

1、R1/R1-zero的技術路線和社區對o1復現的差異

此前社區對o1的復現基本都會涉及到蒸餾和搜索。
R1-Zero沒有SFT，沒有過程監督，沒有搜索，也能訓練出類似o1的效果。學術界之前也有很多實驗，但在較小的模型上都沒有成功。說明只有基模型足夠強，Scaling RL才能取得比較好的效果。
雖然R1強調MCTS沒有效果，但是簡單的majority vote能大幅提升R1的效果，說明搜索仍然是重要的Scale的范式。
R1的成功還依賴DeepSeek強大的系統效率和RL調教能力。

2、策略初始化

R1-zero是一個比較好的嘗試，但是R1還是經過了先SFT（大概幾干條）后再進行RL。
未來后訓練的重心會逐步傾向于RL，但是少量訓練用于SFT可能還是必須的。

3、獎勵模型

R1的獎勵設計跟普通的后訓練沒特別大的區別（Qwen2，Tulu3），有ground truth用ground truth做EM，否則用RM。
RM的（訓練數據量，模型大小，OOD問題，選代周期）的相關問題在整個訓練的流程中還是比較關鍵?？赡苁褂卯斍伴_源的比較強大的RM可以達到比較好的效果，也有可能基于內部的數據重新進行了偏好標注。
獎勵設計（例如RPM的技巧）可能會在基于少量樣本的強化學習微調上仍然起到顯著作用。

4、PRM和MCIS

DS給了兩個PRM和MCTS的“不成功嘗試”。但PRM部分說的比較籠統，并且DS的PRM只評估Correctness（與OAI的Lets verify step by step一致）。
R1給的是一個簡單而且可規模化的可行解，這樣做不一定是最優的。基于R1的Test-time search也繼續優化它的效果。
PRM總歸是一種比較稠密的監督信號，按照傳統R1的理論，對OR進行shaping可以使訓練更穩定或收斂得更快。
PRM不應該是一個被完全放棄的東西，可以讓模型收斂得更快速或更穩定（Scaling曲線的斜率更大）。

5、寫作能力提升o1相比4o在寫作等任務上的提升非常小，但R1的創作經常會令人眼前一亮，可能主要是強基模型在Scale RL后涌現的能力，也有人猜測是因為R1的安全對齊做的比較少，沒有太約束模型的創作能力6、過度優化問題

R1經常會使用一些高端詞匯，典型的如量子糾纏和熵增熵減（會用在各個領域）。猜測是某種形式的reward hacking導致的。

R1在一些通用領域沒有ground truth的任務上的推理效果還并不理想，強化學習的訓練并不能保證泛化。

7、Test-Time Scaling

o1出來后大家討論比較多的是Test-Time Scaling，但重要的還是Training-Time Scaling，包括數據和Training Step。蒸餾見效快，但上限不高，重要的還是高質量致據的缺失，蒸餾數據無法提供訓練Scaling。RL是其中的關鍵，因為它可以保障有足夠的數據和足夠的訓練步驟。

8、Agentic展望

R1是目前唯一同時具有強推理能力和聯網搜索的產品，效果很好，可以調研一些復雜的信息并進行回答。強推理模型最終的落腳點大概率是Agent，怎么用強推理模型幫助Agent更好更魯棒是一個比較重要的問題。

二、劉知遠：R1訓練流程有兩大亮點，DeepSeek的意義更像Llama??

我將從宏觀角度來介紹DeepSeek R1所代表的大規模強化學習技術及其基本原理，同時我們也會探討為什么R1和o1能夠引起這么多的關注，并從DeepSeek最近發布的模型，對大模型技術未來發展進行大致研判。首先來看DeepSeek最近發布的R1模型，它的價值主要體現在能夠復現OpenAI o1的深度推理能力。因為OpenAI o1本身并沒有提供任何關于它是如何實現的細節，相當于o1引爆了一個原子彈，但沒有告訴大家秘方。我們需要能夠從頭自己去尋找到底如何能夠復現出這個能力。DeepSeek可能是全球第一個能夠通過純強化學習技術復現OpenAI o1能力的團隊，并開源和發布相對詳細技術介紹，為行業做出了重要貢獻。我們大致可以總結DeepSeek-R1的訓練流程，有兩個非常重要的亮點。一是R1模型創造性地基于DeepSeek-V1的基座模型，通過大規模強化學習技術，得到一個純粹通過強化學習來增強的強推理模型，也就是R1-Zero。這具有非常重要的價值。因為在歷史上，幾乎沒有團隊能夠成功地把強化學習技術非常好地用在一個大規模模型上，并實現大規模的訓練。DeepSeek之所以能夠實現大規模強化學習，一個重要技術特點是采用了基于規則的方法，確保強化學習可規?；?，實現面向強化學習的Scaling。

第二個貢獻是強化學習技術不只局限在基于規則的數學、算法代碼等容易提供獎勵的領域，它還可以創造性地把強化學習所帶來的強推理能力，泛化到其他領域。這也是所有用戶在實際使用DeepSeek R1進行寫作等任務時，能夠感受到它有非常強的深度思考能力的原因。那具體是怎么做的呢？它分了兩個階段：第一階段還是基于V3基座模型，通過增強推理過程的可讀性，能夠生成相當于是深度推理的SFT數據；第二階段，它又去結合傳統的通用SFT數據來微調大模型，再進一步進行強化學習，從而得到了一個具有非常強泛化能力的強推理模型，也就是R1。所以DeepSeek-R1的重要貢獻體現在兩個方面：一是通過規則驅動的方法實現了大規模強化學習；二是通過深度推理SFT數據和通用SFT數據的混合微調，實現了推理能力的跨任務泛化。我們應該非常重視DeepSeek-R1。它由于開源，讓全球的人能夠意識到深度思考的能力，相當于讓人工智能再次迎來了類似于2023年初的“ChatGPT時刻”，讓每個人感受到大模型的能力又往前邁進了一大步。但是我們同時也要合理評估DeepSeek-R1本身的重要意義。如果說2023年初OpenAI發布的ChatGPT讓全球看到了大模型的重要價值，那么這一次的強推理能力，其實也是OpenAI在2024年9月份發布的o1率先在全球實現。我們認為DeepSeek-R1在歷史上應該是更像是2023年的Meta Llama。它通過開源復現，并且把這些事情公開給全球，讓大家能夠快速建立起相關能力。這是我們需要對DeepSeek-R1重要意義的一個準確認識。當然為什么說DeepSeek-R1能夠取得如此全球性的成功呢？我們認為它跟OpenAI采用的錯誤決策有非常大的關系。我們會看到OpenAI在發布了o1之后，第一，不開源；第二，把o1深度思考過程隱藏起來；第三，o1收費非常高，不能在全球讓盡可能多的人去普惠、去感受深度思考所帶來的震撼。而DeepSeek R1相當于是像2023年初的OpenAI ChatGPT一樣，讓所有人真正地感受到了震撼。這是DeepSeek R1出圈的非常重要的原因。

如果再進一步，把DeepSeek R1和前面發布的V3一起來考慮，它的重要意義在于，在有限算力資源支持下，通過強大的算法創新模式，突破了算力的“卡脖子”限制，讓我們看到即使是在非常有限的算力下，我們仍然可以做出具有全球意義的這一些領先成果，這件事情對于我們中國AI的發展具有非常重要的意義。同時我們也應該看到如果想要AI能夠真正賦能全人類，讓每個人都能夠用得上、用得起大模型和通用人工智能，高效是一個非常重要的命題。強化學習需要有一些未來更加高效的方案。我們還需要探索出更加高效的模型架構，譬如說V3所采用的MoE架構。未來應該也有很多其他相關方案，還有高效算力利用等等。這是DeepSeek V3和R1帶給我們的另一個非常重要的啟示。我們認為，整個人工智能的發展，未來追求高效是我們的一個內在使命和需求。前一個科技革命，即信息革命，它的一個非常重要的內核是計算芯片的發展。過去80年，計算機從最初要一個屋子才能裝得下的規模，發展到現在人手一臺的手機、PC、各種各樣的計算設備，都具備非常強大的計算能力。所有這一切都來源于芯片行業在摩爾定律的指引下，不斷提升芯片制程，提升芯片的電路密度，實現計算設備的小型化、普惠化，推動算力普及。這也是為什么我們在去年特別強調要發展大模型的能力密度。過去幾年，我們看到類似于摩爾定律這樣，大模型能力密度呈現指數級增強。從2023年以來，大模型的能力密度大概是按每100天翻1倍。也就是每過100天，只需要一半的算力、一半的參數，就可以實現相同的能力。

面向未來，我們應該不斷追求更高的能力密度，努力以更低成本，包括訓練成本、計算成本，來實現大模型的高效發展。上一個科技革命，也就是信息革命，對于我們即將到來的智能革命有非常重要的啟示。在信息革命剛剛開始的時候，IBM創始人沃森曾經認為這個世界上不需要超過5臺的主機，足以滿足全世界的計算需求。但到了今天，全球有數十億、上百億的計算設備在服務全人類的社會。我們認為智能革命也要走過一條類似于信息革命的階段，也要能夠不斷提高能力密度，不斷降低計算成本，讓大模型得以更加普惠。AI時代的核心引擎包括電力、算力、現在所訓練的大模型代表的智力。這種密度定律應該是普遍存在的，將是實現人工智能高質量、可持續發展的關鍵。面向未來，我們認為人工智能有三大主戰場，目標都是要讓通用進行到底。一是人工智能科學化，為能力涌現等關鍵機制建立科學理論，科學解釋人工智能形成的原理。二是計算系統智能化，大模型與底層芯片、操作系統、數據管理、編程開發、網絡通信深度融合，能夠在計算層面，用更低成本來把大模型更加通用地用在各個領域。三是領域應用廣譜化，將大模型應用于高精尖制造、科學發現等高度專業化場景中。最后我特別想說，DeepSeek給我們帶來的一個非常重要的啟示，就是我們用小米加步槍，依然能夠取得非常廣闊的勝利。我們即將迎來一個非常重要且意義深遠的智能革命時代，它的高潮即將到來，這是可望也可及的。特別希望能夠跟由DeepSeek來吸引來的更多關注這個方向的人，一起沿著正確的發展方向，不只是為算力，更要重視算法創新，重視高水平人才的培養，走出一條真正屬于人工智能的高質量發展路線。

三、翟季冬：DeepSeek如何降低成本？拆解并行訓練策略我主要分享DeepSeek在系統軟件方面的一些工作。這是DeepSeek-V3在技術報告里公開的預訓練成本。按照H800 GPU每小時每卡2美元的租賃成本，全部訓練成本是550萬美元左右，不包括前期探索模型架構、消融實驗等開銷。

它的成本相對比較低。雖然我們不知道國外像OpenAI這些公司的模型訓練成本，但是可以通過一些相關報道知道成本肯定很高。大家經常會討論說，為什么DeepSeek-V3能用這么低的成本，帶來這么驚艷的效果？我們來看一下DeepSeek采用的一些技術。因為DeepSeek本身并沒有公開說用了多少張卡。如果按照它給的數據，是2048張H800的話，大約是需要54天，也就不到兩個月。如果是1萬張H800，大約是11天可以訓練好這個模型。這是DeepSeek V3的模型參數，是671B。GPT-3的參數是175B，所以它要比GPT-3模型大很多。它是一個MoE的架構，每個token會激活37B參數，大約是5.5%?？偣舶?1層Transformer。然后它在FFN網絡，除了前三層以外，全部替換成MoE。它的MoE架構采用了非常多的細粒度專家，包括1個共享專家和256個路由專家。每個token會激活8個路由專家。

論文里給了DeepSeek模型架構圖，核心是兩塊，MLA和MoE。MLA可以進一步降低推理消耗的內存。MoE包括共享專家和大量路由專家。

之前發布的一些MoE模型，比如像Mistral，采用的專家數很少、每個專家很大的架構。但是DeepSeek其實采用的是大量細粒度的專家。

DeepSeek并行訓練方面，技術報告里有一個輕量級訓練框架。下圖右邊是從網上找的一個示意圖。具體訓練實驗平臺沒有公布，但從它公開的一些數據，它是一個通過InfiniBand連接起來的GPU集群，然后在每個節點內通過NVLink連接起GPU。GPU之間的帶寬是160GB，節點之間的帶寬是50GB。這是一個網絡拓撲情況。

它具體采用的并行訓練策略，用的是16路流水線并行、64路專家并行，跨8個物理節點，數據并行采用的是ZeRO-1，沒有用通信開銷比較大的張量并行。我總結了一下，讓整個訓練效率提升有4個方面的優化，分別是負載均衡、通信優化、內存優化、計算優化。下面分別介紹這四點。首先是負載均衡優化。如果要用MoE架構去訓練一個超大的模型，最大挑戰是負載均衡。我們清華跟北京智源還有一些單位合作訓練的八卦爐模型就是一個MoE的架構。DeepSeek團隊為了解決負載均衡的挑戰，創新提出了一個叫Auxiliary-Loss-Free Load Balancing的策略，下圖是DeepSeek團隊公布的一張圖片，核心是說當給一個token在計算它錄到哪個專家的時候，會給它加上一個專家Bias。Bias的核心目的是保證這些專家負載均衡，如果能做到，最后可以提高整個集群的效率。

它之前有一篇論文是2024年8月份，Bias的核心是只影響專家路由，但是不產生任何梯度影響。然后它會動態調整Bias。調整策略思路比較簡單：如果發現某個專家是overloaded，就會降低這個Bias；如果發現某個專家給他的負載不夠，它就會增大Bias。核心是要控制，讓這些專家能夠均衡。如果控制不好專家負載均衡，那它在一個大規模集群訓練時，利用率很難提升上去。第二，它們的工作用了很多通信優化。用專家并行會引入非常大的All to All通信開銷。為了降低這個通信開銷，它想了很多辦法。它提出來一個DualPipe算法，核心是精細地編排計算和通信。這里有兩張圖，下面是它的技術包里的圖片，上面是我從網上找到的。可以看到這是兩個micro-batch，前向跟反向可以拆分成一些單元，比如計算attention、計算MLP。All to All有兩個階段：一是把token分發，最后在過完專家之后，會把它收回來，叫combine。這樣前向和反向都有一些計算和通信。它通過精細控制GPU SM數量，保證計算和通信正好能夠完全重疊。

具體怎么重疊呢？它采用的是雙向流水線機制。下圖上方的示意圖用的是一個8級流水線、20個micro-batch，從前向和反向兩條流水分別去流，然后在中間穩定狀態，黃色跟綠色部分就是前項跟反向重疊的階段。也就是說在這個過程中，可以讓計算和通信充分重疊。它也給了一些分析。

這里有一個需要注意的點，如果采用雙向流水線，要在GPU顯存里存兩份模型參數。大模型訓練內存使用非常重要。為了解決這個問題，它采用了64路的專家并行。雙流水可以非常有效地降低流水線的bubble。下一個是，通信優化一定會有一些token會被路由到，相當于是走IB網絡會分到其他物理節點。它采用了一個算法，這個code design會限制跨節點的token，每個token最多可以路由到4個物理節點。這實際上是在算法層面的一個調整。同時它在節點內每個token最多平均可以選擇3.2個專家。為什么是3.2個專家呢？這里的核心IB帶寬是50GB/s，NVLink帶寬是160GB/s，相差的比值是3.2。也就是說在一個節點內路由3.2個專家和在IB上路由1個專家的時間是相當。這樣就可以保證IB和NVLink傳輸時間是重疊的。

同時它還有一些token的路由策略。它用到一個確定性的路由策略，可以非常簡單高效。它首先通過IB轉發到確定的節點，再通過NVLink轉到對應的GPU上，還采用了warp specialization技術。H800里有132個SM，這里是用20個SM來控制通信，用剩下的SM做計算。這20個控制通信的SM，同時還會去動態調整web的數量，會根據通信負載，通過英偉達提供的底層PTX（類似于像匯編層的編程語言），來控制SM使用。下面介紹內存優化。大模型訓練中內存非常重要。DeepSeek團隊在優化內存方面想了非常多的辦法。比如重計算，提出相應方法，把一些前向計算不去存，反向時再去計算，這樣可以節約一些內存使用。同時它還把一些數據，包括像模型參數的指數移動平均，存到CPU內存，這樣也是節約GPU顯存。

它還有一個機制，就是為了提高模型精度，采用MTP。它把主模型和MTP模塊的output head和embedding部署在相同節點，讓參數共享。核心是想辦法去降低內存。DeepSeek團隊沒有公布用了多少個節點去做模型訓練。對于給定的算力，GPU顯存是一個非常珍貴的資源。另外它為了提升訓練的效率，采用了混合精度。它用了英偉達最新FP8，把主要計算量、比較大的核心矩陣乘法都用FP8去計算。但是用這些低精度去做訓練，模型可能不收斂，或者導致不管是activation還是weight會有一些outlier的存在。DeepSeek團隊為了減緩outlier影響想了很多辦法，比如采用了細粒度量化，對于activation采用tail條形分組量化方式，對于weight采用block分組方式。同時它還通過增加累積精度（FP32）、增加尾數量，以及在線量化策略。這些方式都是為了減緩outlier的影響，來提高模型精度。最后它用FP8低精度達到了模型收斂。

總結一下我對DeepSeek的一些思考：第一，協同創新，DeepSeek團隊充分挖掘了算法、軟件、硬件協同創新。比如它采用了MoE架構，但又在算法和軟件層面上解決了MoE本身專家并行帶來的通信開銷問題。第二，軟件靈活，如果大家看DeepSeek論文分享報告，能看到軟件是非常靈活的。當我們用某一款硬件，不管是英偉達的還是某一款芯片，它都會有一些限制。這個時候軟件能夠彌補硬件的很多限制。第三，系統軟件，DeepSeek團隊為了降低模型訓練成本想了很多的辦法。優秀的系統軟件可以充分釋放底層硬件的潛力，極致優化。包括DeepSeek團隊自己也承認，用了很多非常細致的優化。這些也是它通過挖掘一點點的優化，讓整個模型的訓練效率提升，來降低訓練成本。最后從我個人角度來說，DeepSeek把整個模型開源，能極大促進人工智能領域的飛速發展。有一個非常開源好用的、效果非常好的大模型，我們就可以嘗試更多軟件相關優化。

四、戴國浩：PTX是否做到繞過CUDA壟斷？
如何極致優化大模型性能？我來就DeepSeek在軟硬件上的優化，特別是繞過CUDA層的事情上，展開做一個討論。我關注DeepSeek團隊和他們的工作有很長一段時間了。他們論文發布時，我非常喜歡這份技術報告。把它的目錄做個拆解，可以看到它基本上在文章中說了四件事，分別是模型架構、系統架構、預訓練方法、后訓練方法。相對于模型架構、預訓練和后訓練，團隊對于系統架構做了非常充分的介紹。

我在思考的事情是：為什么這樣一個大模型的工作，大家會花更多的時間和精力去介紹系統層的架構？DeepSeek團隊有大量的工程師是聚焦在系統架構的優化上。過年期間我刷到了很多（DeepSeek繞開CUDA）的推送和新聞。我相信它最早的來源是來自于DeepSeek論文中這樣一句話：“we employ customized PTX（Parallel Thread Execution）instructions and auto-tune the communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs?！薄拔覀儾捎枚ㄖ频腜TX（并行線程執行）指令并自動調整通信塊大小，這大大減少了L2緩存的使用和對其他SM的干擾?！笨梢钥吹酵ㄟ^這樣的一個定制的PTX優化，使DeepSeek的系統和模型可以更好釋放底層硬件的性能。無論是在通過去做一些auto-tuning，或者說去做一些communication chunk size的調整。它對于L2 cache的使用，以及不同SM之間的streaming multiprocessor之間的干擾，都會做到最小。但是這些被媒體們解讀成，國外可能叫“breakthrough by pass CUDA”，一些國內媒體會解讀成是“繞開CUDA壟斷”。我們具體來看一下，到底什么是CUDA，什么是PTX？為什么繞開CUDA的壟斷這件事在我們看來具有很重要的價值，以及它是否真的做到了繞開CUDA的壟斷？稍微給大家介紹一下，大家平時在使用GPU或者英偉達硬件時，編程時到底是怎么一步一步來調用到底層硬件的？為了做深度學習，為了訓練一個大模型，首先你需要有一張或很多GPU卡。但在上面做編程時，一般大家更多接觸到的是像PyTorch或者Python這樣的高層語言。一個很高層的語言最終是怎么調用到底層硬件的？它實際上經過了很多語言轉換和編譯的過程。這是我上課時會用到的一頁PPT。一般上層的應用會通過一些高層次的語言，或者說硬件的一些接口，從而進行編程，于是大家并不需要關注到底層硬件長得是什么樣子。這些接口包括了像CUDA，也就是英偉達所提供的硬件接口，也有一些其他的，大家如果做一些圖形和圖像顯示，會用到像DriectX或者并行計算會用到OpenCL等接口。

有底層CUDA的driver（驅動），通過驅動最終來調用到底層硬件?？梢钥吹紺UDA是一個相對更上層的接口，提供了面向用戶的一系列編程接口。而PTX一般被隱藏在了CUDA的驅動中，所以幾乎所有的深度學習或大模型算法工程師是不會接觸到這一層。那為什么這一層會很重要呢？原因是在于可以看到從這個身位上，PTX是直接和底層的硬件去發生交互的，能夠實現對底層硬件更好的編程和調用。右邊我們舉了一個Triton的例子，也是OpenAI在主推的一個跨平臺編程語言。它也是通過不斷地編譯和語言的轉化，最終在調用底層英偉達硬件的時候，通過PTX code來調用的。所以簡單來說，PTX的這一層是通過和硬件的直接交互，使得可以控制硬件更多的細節。這件事為什么重要呢？我認為它一共有兩大類優化。第一大類優化是底層優化。給定某一個確定性的算法、模型以及底層硬件，通過優化軟件，比如做一些通信優化或者內存優化，這些是不改變任何程序執行的正確結果的。另一大類優化是協同優化。像混合精度的量化、MLA這些，同時優化算法、模型、軟件甚至是底層硬件。這就使得整體系統的優化空間變得更大。首先來看一下，為什么在底層做PTX優化？舉一個冒泡排序算法的例子，我們分別用C代碼和Python代碼來做實現。一個小的彩蛋是這里的代碼我都是拿DeepSeek來做生成的。C代碼相對更復雜，在實際編程時要關注到一些底層硬件細節，比如數組存儲位置。但Python語言相對更簡單，不需要去關注底層硬件細節。

為什么還是有很多工程師需要去聚焦一些像C代碼的開發呢？我們用了另一篇論文中的實測數據，可以看到越接近底層的語言，對于整體硬件的利用效率更好。在底層做更多的優化，就更好地挖掘系統性能來做。而PTX層相對于C或者說CUDA層會更偏底層。我們通過在這一層的優化和編程，就可以更好釋放底層硬件的性能。舉一個典型的底層優化例子，像Flash Attention這樣的工作，它將整個GPU和CPU整套系統的Memory來做劃分，分別是寄存器級別的SRAM以及GPU上的HBM，包括CPU端的Memory。通過對于不同層級的Memory的精細控制，Flash Attention所實現的Attention算子，大家可以理解成是一個函數，相對于PyTorch原有實現可以快出將近一個數量級。這樣的優化工作被證明可以廣泛應用在大模型訓練中。我們之前的一個大模型推理工作FlashDecoding++，也是通過對于底層硬件的不斷優化和感知，使大模型推理速度進一步提升。這只是一個科研性的工作，我們更想強調系統優化工作是可以被應用到更多底層芯片中的。我們大概這里有1/3的國產芯片，都可以通過這樣感知到底層硬件的優化途徑，進一步釋放底層硬件的性能。這種優化性能甚至可以達到3倍以上。這就是底層優化對于整個大模型系統的意義。說完底層優化，另一件事就是協同優化。什么叫做協同優化呢？底層優化說白了就是在CUDA或者CUDA下面這一層來做優化。整個大模型的生態系統，從最頂層的產品應用到底層的基礎設施，每一個層級都已經形成了非常好的生態，但每一個層級上都存在著非常好的優化空間。所以是否有可能在每一個層級上都達到一定的優化，最終形成一個笛卡爾積，實現更高的整體優化性能？這是我們在思考的第二個大方向，也是我們在DeepSeek論文中看到的一個很大的方向。

這里我們同樣舉了兩個例子。一個例子是可能在半年到一年前非常火的一家芯片公司Groq。它通過定制化的硬件架構，將傳統GPU中的HBM內存去換成了一些節點的SRAM內存，可以實現相對于英偉達GPU呈數量級的大模型推理速度的提升。我們自己也做了一些相應的硬件和芯片工作，可以相對于GPU，進一步提升大模型在一些多模態任務上的推理速度。這就告訴我們的一個很重要的結論，通過軟件+硬件協同優化，可能進一步甚至是超越GPU的性能。在調研性工作中，我們系統性闡釋了通過量化、稀疏化以及一些快速解碼。包括一些算子，甚至是一些定制化的硬件架構，如何通過協同優化的方式，把大語言模型推理和訓練速度進一步釋放和提升，從而滿足我們所暢想的未來廣泛智能場景的一些應用。人工智能的發展得益于三駕馬車，算力、算法和數據。每一波浪潮人工智能的發展速度都與這三者息息相關。第一波人工智能浪潮止步于算法的缺陷，第二波浪潮止于算力突破。第三波浪潮得益于算法和算力都得到了空前的發展，大數據成為了另一塊基石。那數據如何進一步發展？強化學習、多模態數據的獲取，都可能成為助推力。所以可以看到這樣的一個人工智能發展過程中的閉環，也是我們進一步思考的事情。這個閉環如何在國內實現？我們把這樣的一個邏輯圖給畫出來了。

在國外，模型、芯片、系統已經形成了一套非常完備的閉環生態。在國內，DeepSeek做了非常好的一環，就是使國內模型超越了國外模型，或者說在某些場景完成了超越，或者說在方法論層面上完成了超越。但是如何形成國內“模型-系統-芯片”閉環呢？這是我們認為在未來一定會發生的事情。DeepSeek打響了非常好的第一槍。我們也希望能夠通過國內系統和芯片的閉環發展，使它達到這樣的一個結果。為了實現這件事，我們有非常好的基礎設施和上層的應用。但是在中間軟件和硬件的一些協同優化，是我們需要在未來不斷努力和提升的。最后做一個總結，我們從PTX和CUDA層的優化思考到未來對大模型性能的極致優化，可以分為在CUDA層、PTX層的底層優化，以及打通軟件硬件的協同優化，最終實現模型系統和芯片的閉環，以及“軟件到硬件”+“硬件到軟件”的閉環。

五、Q&A：從DeepSeek的轟動成功中，我們能學到什么？

問題1：請從各自的專業角度來分享和解釋一下，目前DeepSeek引起的一些效應，其中最有亮點的技術是什么？邱錫鵬：它最出圈的可能還是因為效果好。很多o1的復現模型可能在某些指標上比較高，但實際用起來會覺得并沒有做到真正的推理技能。但是R1確確實實達到了o1的效果，在很多方面的表現令人驚艷。o1對標R1，相當于ChatGPT對標Llama。

開源非常重要，如果它是個閉源模型，那么一定不會像現在這么出圈。還有一個令人震驚的是R1-Zero，證明了如果采用純RL，就能夠讓模型自己涌現長CoT能力。很多時候大家復現o1，非常重要的是訓練數據從哪里來。如果通過純RL就能夠增強長推理能力，就讓人產生非常大的遐想：我們是不是將來有很大的機會，可以通過大規模的強化學習訓練，在推理路線上達到或超過o1，并且在很多其他領域也能夠達到像在數學等強推理領域的效果？所以我覺得它確確實實打開了一個思路。最后一點是在模型上，它沒有通過過程監督、MCTS、搜索，類似于用非常簡單的方法，就能通過Scale達到如此好的效果，這也是非常令人驚訝的。劉知遠：我覺得有兩個。一是由V3帶來的啟示，它展示了用1/10甚至更少的成本，完成了大概達到GPT-4和GPT-4o水平的能力。V3在底層算力加速方面做了大量工作，實現算法和底層軟硬件的協同優化。這種一體化優化機制，讓大家看到即使成本已經很低，仍然可以通過優化進一步降低成本。雖然V3的成本仍然是幾百萬美元甚至幾千萬美元，但相比國際上公認的水平，已經低得多。這也是英偉達股價會下降的一個重要原因。第二個是R1給我們的啟示。因為OpenAI犯了傲慢之罪，不開源，不公開技術細節，價格又非常高，所以不出圈。在這種情況下，R1開源又免費，讓全球用戶使用，而且公開了所有技術細節。相當于是把原來應該由OpenAI占有的像當年ChatGPT的身位，讓給了DeepSeek。DeepSeek通過極致優化有限資源，成功追趕上國際最先進模型，我覺得干得非常漂亮。而且通過開源，讓全球都認識到我們中國團隊的創新能力

翟季冬：我印象最深的是DeepSeek的架構創新，尤其是MoE。我們團隊最早從2021年開始做MoE。當時我們實驗室有同學做Fast-MoE框架，在2021年開源。這個方向當時用的人很少。MoE有優點也有缺點。優點是模型參數增大，也不顯著增加算力。但真正訓練起來會有很多問題，包括負載不均衡，包括如果訓練像稠密模型在英偉達平臺可能我優化到40%到50%的效率，但實際上訓練MoE很多時候只能優化到10%或20%，可能會更低。針對這個問題，很多做模型的可能就會放棄。國外像Mistral架構，采用的是專家數很少、非常均衡的策略。DeepSeek團隊比較敢于創新，設計了每一層有256個路由專家、1個共享專家。之前的研究有Auxiliary Loss的算法，會使梯度發生擾動，影響模型收斂。DeepSeek提出來Loss Free方式，既能讓模型有效收斂，同時解決負載均衡。我覺得不完全追隨國外的策略、有自己的思考，非常重要。中國發展到這個程度，我們一定要有一些自己的思考、判斷。不能說別人這樣做，我們就一定這樣做。

戴國浩：我從兩個方面來講。首先從學術角度來看。過去兩個月內很多團隊、廠商都發布了自己的模型，并且對于自己模型架構都提到了非常多的新設計。這是我們看到非常欣喜的一件事情，使我們有更多的機會可以通過底層優化去助力上層模型的發展。如果模型架構本身沒有特別大的變化，像Flash Attention這樣的一些技術可以完全優化各個模型。但實際上由于模型不斷變化，我印象非常深的是在DeepSeek里MLA這樣的架構。這使得我們必須得通過底層的系統優化，而不是去用一些現成框架就能達到非常好的性能。第二件事情是我看到的一個機會。以往我們進行優化管理時，都會設定一個優化目標。原來可能只是關注算法精度，后來發展到軟硬件協同優化，又會把硬件的一些約束放在里面。我們現在還必須面臨的一件事情是算力不足、資源受限的情況。這個優化問題的解在我看來目前DeepSeek給了一個非常好的答案。通過更低成本的訓練，我們可以獲得一個更好的模型。也就使得我們形成一個“模型+軟件+系統+芯片”的國產閉環，在未來都發生成為了一個非常大的可能。所以這件事也給了我非常大的信心。所以這從學術和產業的兩個角度，都給到了我非常大的驚喜。

問題2：為什么是這個時間點出現了R1模型？之前沒有基于基模型直接做強化學習的嘗試嗎？在這個時間點上，為什么是DeepSeek做得如此之出圈？

邱錫鵬：我覺得他們是一個長期積累的結果。比如V2版當時已經引起大家對他們能力的認可，然后是V3，直到R1的出現，不是說突然爆冷。它從去年5月份就已經開始就部署整個團隊，一直在往這方面迭代研究，所以我覺得是在大模型這條路線上，加一些AGI的信念，加上軟硬件協同創新能力，一步步走到今天。它在今年出圈爆火，確確實實是真正能夠從底層優化和創新上，對國外OpenAI或者Meta這些大公司產生一些震撼。我們國內雖然受到非常多的算力封鎖，加上訓練資源限制，但是依然能非常出色或高質量地做出性能如此好的模型，確實是他們出圈的根本原因。劉知遠：我覺得這件事有一定的必然性。大概2024年時，很多投資人，甚至一些不從事人工智能領域的人，問中國的AI跟美國的AI相比，到底差距是變大還是變小了？我當時明確說，我們認為中國正在非?？焖俚刈汾s，與美國最先進技術之間的差距正在逐漸縮小。雖然我們被“卡脖子”，有這樣那樣的一些限制，但一個很重要的現象可以驗證這一點，國內復現ChatGPT、GPT-4模型大概需要一年時間，再往后看，像Sora、GPT-4o，國內團隊可以在半年左右完成相關復現工作。像o1這樣的模型能力，DeepSeek非常大的價值是它不只能夠復現，而且用了非常低的成本。能夠在半年左右復現o1水平模型的能力，這件事情應該對于我們國內一線團隊來講是可預期的。只是說DeepSeek能夠更快，而且是更加低的成本，高效完成工作。由DeepSeek來達到這么出圈的效果，有團隊本身的必然性。

邱錫鵬：我再稍微補充一下，ChatGPT的復現，因為之前還有一些相關的論文發表，所以技術路線相比o1更清晰。但o1確實是OpenAI幾乎沒有任何的論文或技術報告的發表，所以大家都是猜測，難度會高很多。

問題3：我們今天看到的DeepSeek技術的爆發，對于中國大模型的未來高質量發展道路會有哪些啟示？邱錫鵬：DeepSeek團隊應該大部分都是剛畢業的碩博士，還有很多高年級實習生，能夠非常好地支持長期的基礎創新。我也看了梁文鋒（DeepSeek創始人）的一些采訪，他認為AI或者大模型還沒有到非常大的商業變現時刻，所以目前階段還是以基礎創新為主。在此階段有一個非常好的高人才密度團隊加敢于創新，是非常重要的?，F在畢竟還是有o1明珠在前，我們在追隨。下一步如果真正做前沿創新，需要更大的對未來探索性的東西或嘗試，不怕失敗。科研環境還是非常重要的。

劉知遠：我說兩點。第一點，我特別敬佩整個DeepSeek團隊的技術理想主義，以實現AGI作為夢想去組建團隊。同時看到梁文鋒之前是做量化投資，自己投錢來做這件事情，沒有資金上的相關困擾。對應的，我覺得中國應該要給這樣的技術理想主義提供支持，哪怕不像DeepSeek這么有資金，能否也能讓他們沒有后顧之憂地進行探索、踏踏實實地做一些原始創新？第二點，是他們的執行力。DeepSeek這兩個月一炮而紅，是經過多年的持續積累，量變產生了質變。我可以告訴大家，幾年前，DeepSeek就是幻方，當時拿著免費算力來誘惑我們的學生，與他們建立聯系。也有學生畢業后加入了DeepSeek。我覺得這也是技術理想主義推動下的長期主義成果。國內應該有更多的團隊，能夠坐得住冷板凳，更加聚焦，在一些重要問題上持續發力，做出有意義的工作。DeepSeek發展到今天，它做的所有工作可能也是在摸著OpenAI過河。相當于它以OpenAI為師，來看AGI到底該怎么實現，然后努力做他們認為OpenAI做對的事情。的確這個過程非常困難，包括隨著OpenAI變得越來越封閉，o1如何復現會比當年復現ChatGPT更加困難。但我們看到只要有理想和執行力，它就可以做到。國內應該有更多的團隊去學習。具體技術當然是我們應該學的一部分，但是要避免會認為因為DeepSeek成功了，所以它做的所有的事情都是對的。它所有的技術是不是都是最先進的？我覺得不見得，這樣反而會限制我們的創新。我們應該學習的是它的理想、堅持、方法論。

翟季冬：DeepSeek對我最大的啟發有兩點。第一點是創新，創新是社會進步和個人發展的永恒動力。DeepSeek團隊在這個過程中，比如說為了降低算力成本，為了突破模型推理精度，想了很多很多創新的辦法。未來一定要勇于創新，才能發現更多的機會。這一波人工智能讓我們最興奮的是每隔可能一兩年，就會讓我們看到很多新的東西。第二點，從我個人的體會來說，我覺得DeepSeek榜樣的力量非常重要。我們高性能計算領域，有一個非常重要的獎項叫戈登貝爾獎。這個獎項其實設立了快30年，中國沒有拿到獎。我們在計算機大會上也有論壇，當時討論說中國離戈登貝爾獎還有多遠。后來在2016年，由清華跟中科院軟件所一起拿到戈登貝爾獎。后來國內陸續多次拿到這個獎。DeepSeek團隊這次能取得這么好的成果，一定會對中國在人工智能領域的工作者，給一個非常好的榜樣力量。大家還會做出更多好的成果。我們中國人自己的團隊做出這樣的成果，我們也有信心繼續努力。這可能對中國未來的人工智能發展會至關重要。

戴國浩：我主要說三點。首先是對于個人或者團隊，我非常欽佩DeepSeek團隊。他們是一幫能創新、有理想并且很堅持的人。在AI領域，在過去2到3年發展還是非常快的。如何堅定走一條他們認為正確的路，并且持續做創新，這對于個人和團隊來說是一個非常大的啟示。第二點是對于整個國內人工智能的發展。當我們有了單點突破之后，未來我們可以預見到，只要我們持續堅持來做這樣一件事情，未來一定可以形成一套閉環的生態。我們不僅是在算法，我們在系統、軟件、芯片各個層面上，都有可能去做出一些不一樣的工作。我最關注DeepSeek的一個點就在于可以做到大幅度降低訓練大模型的成本。人類發展歷史上每次工業革命中，一些新的生產工具的誕生，都會使得生產力有大幅度的解放。而生產工具能夠提升生產力的本質，是因為生產力成本是不斷降低的。隨著訓練成本降低，未來可以在很多智能終端場景中大幅降低推理成本，助力到人類生產力的進一步解放，推動人類邁向下一個臺階。

六、Q&A：MoE是否是最優解？長思維鏈設計對硬件有什么需求？

問題1：每100天大模型能力密度會減少一半。這個能力密度是怎么定義的？內在原因是什么？是模型優化還是數據質量？長思考類模型的參數密度和評估是否和普通大語言模型一致？

劉知遠：能力密度是我們最近半年提出的一個概念。如何有效準確衡量，可以去看論文《Densing law of LLMs》。所謂的能力密度，可以理解為模型在各種評測集上所展現出來的能力，除以其參數規模。我們觀察過去一年半發布的代表性模型，能力密度每100天會增加一倍，其意義就在于每過100天就可以用一半的參數，實現相同的能力。這一現象背后有多個因素影響：一是數據質量可能更高，取決于數據治理；二是模型架構，采用更稀疏激活的模型架構，可以用更少的激活參數承載更多能力；三是學習方法，包括OpenAI在內的所有一線團隊都會開展的“Scaling Prediction”。在真正訓練一個模型之前，我們會進行大量的風洞實驗，積累各種預測數據，以確定模型需要什么樣的數據配比和超參配置，從而達到最佳效果。綜合這些因素，模型可以用更少的參數，承載更多的能力。我們將這一現象類比芯片行業的摩爾定律。摩爾定律是電路密度不斷增加的過程，通過技術發展實現。進一步結合底層算力優化，我們可以將這種優化映射到模型訓練階段，從而極大降低成本。當然，我們并不是說DeepSeek的算力可以用1/10的成本實現與國外模型相同的能力，但這與Densing law（能力密度定律）有一定的重疊。Densing law更多地強調模型密度不斷提高，它不僅體現在訓練階段成本的降低，也體現在推理階段。模型可以用更低的推理成本、更快的推理速度，完成相同的能力。我們認為，未來AI的發展一定會沿著這條路線前進。過去幾年的發展也在不斷驗證這一點。一個直觀的體驗就是，OpenAI等一線公司的API價格在過去幾年快速下降。原因不只是在打價格戰，而是因為它們可以用更少的資源實現相同的能力，從而讓更低的成本去提供服務。我們認為，高效性是未來AI發展的一個重要方向，也是我們迎來智能革命的一個重要前提。

問題2：基于DeepSeek的這樣一個軟硬件協同優化的方式，未來國產芯片或者國內芯片加國外芯片的組合，以及CPU+GPU異構組合，對大模型進行優化，會不會成為未來的新興熱點方向？翟季冬：我覺得一定會的。最近華為也把這個DeepSeek R1移植到昇騰平臺。我相信過年期間工程師肯定都沒有休息。因為DeepSeek R1模型是開源的，國產芯片都可以盡快嘗試把模型移植到自己的芯片。我相信今年上半年這方面的工作會非常的多，肯定有很多相關的公司或工程師在做這個方向。

戴國浩：這是我們一直堅信的事情。在未來或者今年，我們就可以看到很多國內模型會應用在國內場景中，并且底層使用國內芯片。我們自己也在做很多這方面的一些工作。目的是為了告訴大家，用國內芯片去跑國內模型，用在國內應用場景中，是真的可以做的高效并且形成一整套閉環的。這里有很多的工作需要做，需要整個團隊對于從上層軟件到底層的芯片都很了解。以DeepSeek為例，它僅僅是對于PTX這一層的優化，就可以帶來這么大的性能提升。而國內這么多的芯片、這么多的模型，這樣的M乘N打通，具有非常大的價值。我們堅信這件事情在今年和未來的很長的一段時間都會發生。

問題3：MoE架構會是通往AGI路上的最優解嗎？劉知遠：我的個人感覺是，沒有人永遠是對的。OpenAI發布ChatGPT、GPT-4，它做對了；但發布R1，它做錯了，沒有開源，定價出現了策略失誤，所以相當于是成就了DeepSeek。我也不會認為因為DeepSeek選擇了MoE，MoE就永遠是正確的。沒有任何證據證明MoE是最優的模型架構。從學術的角度和AI未來發展的角度，這是一個開放性的問題。未來如何實現高效性？我認為一定是模塊化和稀疏激活的，但具體如何稀疏激活、如何模塊化，這件事情本身應該是百花齊放的。應該鼓勵學生和從業者像DeepSeek一樣去努力探索創新。所以，我本身不太認為MoE有任何絕對的壁壘，或者它一定是最優的方法。

翟季冬：我雖然不是做模型出身，但是我覺得這一波人工智能對我影響最大的，就是在不停變化。很有可能又有些新的技術會顛覆現在的技術。要對未來充滿更多的期待。

戴國浩：沒有什么方法是永遠正確的，但會有一些方法論是永遠正確的。這種開源也好，這樣的一些新方法探索。技術發展跟時間有關，例如上世紀80年代很多機器學習會議會拒收神經網論文，因為在當時看來效果不好或者可解釋性差。我們一定會抱著一個非常開放的態度。無論是新的模型架構、新的硬件架構，抑或是一些聯合設計的方法，都是在未來探索的方向。MoE現在取得不錯的效果，我們認為是當前的一個非常好的解。但未來是什么樣子？這需要更多的老師同學、行業內的創業者，大家一起來做探索。

邱錫鵬：MoE是大規模模型在做規模上Scale的和現在GPU架構的一種妥協。未來底層硬件的改變，以及新架構芯片的出現，可能都會使模型發生非常大的變化。一個趨勢可能是未來模型架構上面的設計，會更多依賴或考慮到底層硬件上的優化。比如通信帶寬，如果有朝一日變得非常高，那么可能架構就會發生不一樣的變化。

問題4：長思維鏈設計對硬件有什么需求？存儲能力是否適合當前的推理？長思維鏈模型設計方面，對于硬件有什么需求？計算和存儲能力是否適合現在這類推理？戴國浩：這是一個非常好的問題，也是我們最近正在做的一些研究課題。舉一個例子，原來的這種大模型，以Llama為例，它是一個token一個token來做輸出的。但這種長思維鏈的過程可以分成兩個階段。一個階段是在每一步一個token一個token輸出，但形成了一段話之后，就會有這樣一個思維的過程，它其實是一個sequence to sequence輸出。所以我們可以看到兩個直觀變化。一個變化是它對于歷史信息的獲取提出了更高要求。另一個是它對于整體推理時間和推理成本的需求，也會變得更大。我們知道大模型本質上在推理過程中是一個訪問受限的問題。那如何去提供更高帶寬，使得在長思維鏈過程中還能保持一個比較高的推理效率？這一點除了在軟件上來做優化，底層硬件甚至是硬件本身架構，傳統的是計算和存儲的分離，是否有可能把計算和存儲放的更近，甚至是放到一起？這是我們看到的一個非常大的趨勢。相信未來如果說算法本身的發展是往這個趨勢來做，也一定會有相應的新硬件架構的出現。

問題5：關于PTX方法的通用性，如果我們換一種模型或者換一種類型的卡，那么重新用這種方法再做，它的泛化性以及工程成本有多高？翟季冬：PTX是英偉達為了更精細地控制底層的硬件，在CUDA往下的一層。其他硬件廠商也會有一些偏底層的控制指令。因為PTX畢竟是英偉達自己的指令。如果換成其他的芯片，肯定要去用對應的芯片底層相應的一些接口，這肯定是要變的。戴國浩：我非常同意翟老師的觀點。大家不用去神話PTX。特別是學過計算機的這個同學，可能在大學階段都學過一門課程叫做匯編語言。PTX大家可以理解成就是英偉達GPU的匯編語言。我們把它放到國產GPU上，類似的也會有相應匯編。特別是在目前國產GPU上層軟件生態相對英偉達來說沒有那么成熟的情況下，使用國產GPU的“PTX”也是一個必然的路徑。這里面會涉及到系統軟件開發人員和硬件人員的緊密配合。

本文首發于公眾號“智東西”（ID：zhidxcom）。智東西是國內領先的智能產業新媒體，歡迎關注。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
34146

瀏覽量
275263
人工智能

人工智能

+關注

關注
1804

文章
48677

瀏覽量
246276
DeepSeek

DeepSeek

+關注

關注
1

文章
772

瀏覽量
1311

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

AI研究所丨DeepSeek最強專業拆解來了，清交復教授超硬核解讀

評論