DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據 arXiv 網站上發布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓練的稀疏注意力機制,它將算法創新與硬件對齊的優化相結合,以實現高效的長上下文建模。”
論文稱,NSA 在通用基準檢驗、長文本任務和基于指令的推理中均能達到或超越全注意力模型的表現。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。
實驗顯示,NSA 不僅在通用任務和長上下文任務中表現出色,還在例如鏈式推理等復雜任務中展現強大的潛力,且推理速度加快。
在通用基準檢驗、長文本處理以及基于指令的推理任務中,NSA 的表現均能達到甚至超越傳統全注意力(Full Attention)模型的水平,以性價比極高的方式,罕見地在訓練階段應用稀疏性,在訓練推理場景中顯著提升速度,特別是在譯碼階段實現高達 11.6 倍的提升。
透過高效的長序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫或多輪對話(如千輪客服場景),擴展大語言模型在文文件分析、代碼生成、復雜推理等領域的應用邊界。例如,Gemini 1.5 Pro 已展示長上下文的潛力,NSA 能進一步降低這類模型的訓練與推理成本。
在這篇名題為「原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創始人梁文鋒也是共同作者。
中國人工智能軟件巨頭商湯科技智能產業研究院前院長田鋒表示,隨著全球人工智能競爭持續升溫,不同的公司在不同領域展示了競爭優勢。據田鋒介紹,DeepSeek 開發的資源高效的開源模型在數學推理和軟件工程任務方面表現出色,而 OpenAI 的 o1 在一般知識和解決問題方面表現更佳。
我們看到,來自中國人工智能公司還展示了各種優勢,包括競爭性能和成本效益。田鋒強調:“通過利用替代數據源、開發自主技術以及促進國內技術生態系統內的合作,DeepSeek 和其他中國人工智能公司能夠創造出不僅滿足國內需求而且能夠提高全球競爭力的解決方案,”
這是自1月20日DeepSeek發布R1模型震撼AI圈以來,DeepSeek首次發布的技術動態。
-
AI大模型
+關注
關注
0文章
374瀏覽量
609 -
DeepSeek
+關注
關注
1文章
797瀏覽量
1731
發布評論請先 登錄
【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘
IBM探索AI驅動的降本增效新路徑
福田歐曼銀河5助力物流運輸行業降本增效
PLC遠程維護上下載,降本增效減少出差的利器

Deepseek海思SD3403邊緣計算AI產品系統
首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
RK3588開發板上部署DeepSeek-R1大模型的完整指南
添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略
DeepSeek大模型受行業熱捧,加速AI應用迭代
了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
deepin UOS AI接入DeepSeek-R1模型
戴爾科技助力企業實現科學的降本增效
光伏電站智慧運維系統助力光伏電站降本增效

評論