制服丝袜中文99精品,免费无遮挡无码视频网站麻豆,性色A V网站

(電子發燒友報道文/章鷹）2月18日，在馬斯克的xAI公司發布了Grok3大模型后，中國公司深度探索公司推出了用于超快速長文本訓練訓練與推理的“原生稀疏注意力”（Native Sparse Attention，簡稱 NSA）。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據 arXiv 網站上發布的論文摘要顯示，“我們提出了NSA，這是一種原生可訓練的稀疏注意力機制，它將算法創新與硬件對齊的優化相結合，以實現高效的長上下文建模。”

論文稱，NSA 在通用基準檢驗、長文本任務和基于指令的推理中均能達到或超越全注意力模型的表現。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

實驗顯示，NSA 不僅在通用任務和長上下文任務中表現出色，還在例如鏈式推理等復雜任務中展現強大的潛力，且推理速度加快。

在通用基準檢驗、長文本處理以及基于指令的推理任務中，NSA 的表現均能達到甚至超越傳統全注意力（Full Attention）模型的水平，以性價比極高的方式，罕見地在訓練階段應用稀疏性，在訓練推理場景中顯著提升速度，特別是在譯碼階段實現高達 11.6 倍的提升。

透過高效的長序列處理能力，NSA 使模型能夠直接處理整本書、代碼庫或多輪對話（如千輪客服場景），擴展大語言模型在文文件分析、代碼生成、復雜推理等領域的應用邊界。例如，Gemini 1.5 Pro 已展示長上下文的潛力，NSA 能進一步降低這類模型的訓練與推理成本。

在這篇名題為「原生稀疏注意力：硬件對齊且可原生訓練的稀疏注意力機制」（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的論文署名中，DeepSeek 創始人梁文鋒也是共同作者。

中國人工智能軟件巨頭商湯科技智能產業研究院前院長田鋒表示，隨著全球人工智能競爭持續升溫，不同的公司在不同領域展示了競爭優勢。據田鋒介紹，DeepSeek 開發的資源高效的開源模型在數學推理和軟件工程任務方面表現出色，而 OpenAI 的 o1 在一般知識和解決問題方面表現更佳。

我們看到，來自中國人工智能公司還展示了各種優勢，包括競爭性能和成本效益。田鋒強調：“通過利用替代數據源、開發自主技術以及促進國內技術生態系統內的合作，DeepSeek 和其他中國人工智能公司能夠創造出不僅滿足國內需求而且能夠提高全球競爭力的解決方案，”

這是自1月20日DeepSeek發布R1模型震撼AI圈以來，DeepSeek首次發布的技術動態。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI大模型

AI大模型

+關注

關注
0

文章
374

瀏覽量
609
DeepSeek

DeepSeek

+關注

關注
1

文章
797

瀏覽量
1731

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

DeepSeek發表重磅論文！推出NSA技術，讓AI模型降本增效

評論