電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級(jí),當(dāng)前版本為DeepSeek-R1-0528。次日,DeepSeek-R1-0528正式在Hugging Face平臺(tái)開源。用戶可通過官方網(wǎng)頁(yè)、App、小程序進(jìn)入對(duì)話界面后,開啟“深度思考”功能體驗(yàn)最新版本。API也已同步更新,調(diào)用方式不變。
DeepSeek-R1-0528編程能力提升最為顯著
DeepSeek-R1-0528仍然以2024年12月發(fā)布的DeepSeek V3 Base模型為基座,通過在后訓(xùn)練過程中投入更多算力,顯著提升了模型的思維深度與推理能力。
官方稱,在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中,DeepSeek-R1-0528取得了當(dāng)前國(guó)內(nèi)所有模型中首屈一指的優(yōu)異成績(jī),并且在整體表現(xiàn)上接近其他國(guó)際頂尖模型,如OpenAI的o3 高版本與o4 mini模型、Google的Gemini-2.5-Pro等。
在編程能力方面,DeepSeek-R1-0528能力的提升最為顯著。知名代碼測(cè)試平臺(tái)Live CodeBench顯示,新版本性能可以媲美OpenAIo3模型的高版本。據(jù)測(cè)試者反饋,DeepSeek-R1-0528能夠一次性生成超千行無Bug代碼,且在HTML/CSS/JS動(dòng)態(tài)交互實(shí)現(xiàn)(如天氣卡片動(dòng)畫、數(shù)據(jù)可視化)中更加精準(zhǔn)。另外,在模擬物理碰撞的編程任務(wù)中,其表現(xiàn)優(yōu)于一些其他模型。它還能用Python 編寫將Word文檔中的圖片提取到固定路徑的小程序,在短時(shí)間內(nèi)完成任務(wù)。
在復(fù)雜推理任務(wù)中,DeepSeek-R1-0528的表現(xiàn)也有顯著提升。在AIME 2025測(cè)試中,新版模型的準(zhǔn)確率從舊版的70%提升至87.5%。這一提升得益于模型在解題過程中進(jìn)行了更為詳盡和深入的思考,舊版模型平均每題使用12K tokens,而新版模型平均每題使用 23K tokens。此外,它還能正確回答“9.9 - 9.11 = ?”這類難倒其他頂流大模型的數(shù)字新難題。
在創(chuàng)意寫作能力上,DeepSeek-R1-0528 輸出的文本更加自然,結(jié)構(gòu)更有層次感,展現(xiàn)出了獨(dú)特的推理風(fēng)格,不僅速度很快,而且進(jìn)行了充分的思考。在舊版R1的基礎(chǔ)上,DeepSeek-R1-0528 針對(duì)議論文、小說、散文等文體進(jìn)行了進(jìn)一步優(yōu)化,能夠輸出篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品,同時(shí)呈現(xiàn)出更加貼近人類偏好的寫作風(fēng)格。
在其他能力方面,如幻覺改善,DeepSeek-R1-0528針對(duì)幻覺問題進(jìn)行了優(yōu)化。與舊版相比,更新后的模型在改寫潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺率降低了45~50%左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。
此外,DeepSeek-R1-0528 還支持工具調(diào)用功能,盡管不支持在 thinking 中進(jìn)行工具調(diào)用,但在Tau-Bench測(cè)評(píng)中表現(xiàn)良好,與OpenAI o1-high相當(dāng)。API方面,DeepSeek-R1-0528已同步更新,接口與調(diào)用方式保持不變,但增加了Function Calling 和JsonOutput的支持。
目前,百度智能云千帆大模型平臺(tái)正式上架了DeepSeek最新的R1-0528大模型。千帆模型開發(fā)平臺(tái)同步支持DeepSeek-R1最新版的批量推理、模型評(píng)估、推理日志挖掘分析以及模型蒸餾功能,全流程工具鏈支持企業(yè)構(gòu)建自己的專屬大模型;千帆應(yīng)用開發(fā)平臺(tái)上的企業(yè)級(jí)RAG、Agent、工作流、百度AI搜索組件等功能也完成對(duì)DeepSeek新模型全鏈路接入,支持企業(yè)基于DeepSeek-R1-0528定制專屬應(yīng)用。文小言App也全面接入了DeepSeek最新模型。
騰訊旗下元寶、ima、搜狗輸入法、QQ瀏覽器等多款產(chǎn)品也已接入了 DeepSeek R1-0528版本。用戶打開元寶(電腦版、網(wǎng)頁(yè)版可搶先體驗(yàn))、ima、搜狗輸入法(Windows版?zhèn)冗厵冢Q瀏覽器,選擇DeepSeek模型R1深度思考,即可免費(fèi)不限量使用。
全球AI大模型技術(shù)能力持續(xù)突破
近些年,全球大模型技術(shù)能力持續(xù)突破,原生多模態(tài)大模型成為技術(shù)演進(jìn)的重要方向,通過打通視覺、音頻、3D等模態(tài)數(shù)據(jù),實(shí)現(xiàn)端到端輸入輸出。例如,百度文心大模型4.5系列實(shí)現(xiàn)了文本、圖像和視頻的混合訓(xùn)練,顯著提升了多模態(tài)理解能力。
基于長(zhǎng)思維鏈的“慢思考”技術(shù)成為提升模型邏輯推理能力的關(guān)鍵。例如,OpenAI的o1模型通過強(qiáng)化學(xué)習(xí)和思維鏈技術(shù),在STEM領(lǐng)域的推理能力顯著增強(qiáng),并具備自我反思與錯(cuò)誤修正能力。
模型參數(shù)量呈指數(shù)級(jí)增長(zhǎng),例如從GPT-2的15億參數(shù)躍升到GPT-4的數(shù)千億參數(shù)。同時(shí),訓(xùn)練數(shù)據(jù)集規(guī)模每八個(gè)月翻一番,推動(dòng)了模型性能的持續(xù)提升。
目前全球各大模型呈現(xiàn)多元化競(jìng)爭(zhēng)態(tài)勢(shì),國(guó)內(nèi)外模型在不同唯獨(dú)展開激烈競(jìng)爭(zhēng)。從技術(shù)能力上來看,在國(guó)外,OpenAI的GPT系列(如GPT - 4)通過大規(guī)模訓(xùn)練和計(jì)算資源,在生成文本和理解語(yǔ)言方面表現(xiàn)出色,具備強(qiáng)大的語(yǔ)言理解和生成能力,在復(fù)雜的文本生成和學(xué)術(shù)研究領(lǐng)域占據(jù)優(yōu)勢(shì)。Google的Gemini系列結(jié)合了Google Brain和DeepMind技術(shù),追求極致的多模態(tài)和推理性能,在多模態(tài)支持方面具備最全面的能力,如原生支持文本、圖像、音頻、視頻和代碼等多種模態(tài)輸入輸出。
在國(guó)內(nèi),DeepSeek通過創(chuàng)新的算法優(yōu)化和高效的資源利用,提供了具備競(jìng)爭(zhēng)力的選擇。其DeepSeek - R1模型在推理速度和計(jì)算資源消耗方面具有顯著優(yōu)勢(shì),在推理能力、編程表現(xiàn)及交互體驗(yàn)方面實(shí)現(xiàn)顯著突破,在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中取得了國(guó)內(nèi)領(lǐng)先的成績(jī)。百度的文心大模型在自然語(yǔ)言處理、知識(shí)圖譜構(gòu)建等方面技術(shù)成熟,廣泛應(yīng)用于智能搜索、智能寫作、智能客服等領(lǐng)域。商湯科技專注于計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù),在圖像識(shí)別、視頻分析等方面的技術(shù)實(shí)力強(qiáng)勁,其大模型在智能安防、智慧城市等領(lǐng)域有廣泛應(yīng)用。
從應(yīng)用場(chǎng)景上來看,國(guó)外GPT - 4適用于跨國(guó)智庫(kù)咨詢、新藥研發(fā)分子關(guān)系推理等場(chǎng)景。摩根士丹利使用GPT - 4.5生成投行報(bào)告,分析師效率提升70%。Gemini系列適用于跨境電商客服、全球輿情監(jiān)控等場(chǎng)景,沃爾瑪定制Gemini客服系統(tǒng),支持50種語(yǔ)言實(shí)時(shí)翻譯。
國(guó)內(nèi)DeepSeek在智能客服、醫(yī)療健康等領(lǐng)域具有強(qiáng)大潛力。文心一言深度綁定政企市場(chǎng),覆蓋98%部委合規(guī)標(biāo)準(zhǔn),在國(guó)企流程自動(dòng)化、醫(yī)療病歷結(jié)構(gòu)化分析等場(chǎng)景有應(yīng)用,如國(guó)家衛(wèi)健委疫情政策解讀報(bào)告生成。通義千問在電商場(chǎng)景表現(xiàn)突出,是電商場(chǎng)景霸主,在直播腳本生成、競(jìng)品輿情分析準(zhǔn)確率超90%,如天貓雙11自動(dòng)生成百萬級(jí)個(gè)性化商品描述。
從生態(tài)方面來看,國(guó)外OpenAI憑借其強(qiáng)大的語(yǔ)言理解和生成能力,吸引了全球的開發(fā)者和企業(yè)。Google依托谷歌TPU算力壟斷和搜索數(shù)據(jù)優(yōu)勢(shì),推動(dòng)Gemini系列的發(fā)展。
國(guó)內(nèi)百度匯聚了大量高端人才,平臺(tái)技術(shù)發(fā)展全面且快速,文心大模型在內(nèi)部和外部應(yīng)用方面雙向發(fā)力,積累了較多行業(yè)應(yīng)用案例。阿里電商生態(tài)加持通義千問,使其與阿里云無縫集成,可一鍵調(diào)用云計(jì)算、支付、物流接口。騰訊整合微信、游戲生態(tài),調(diào)用微信社交語(yǔ)料,生成“網(wǎng)感”最強(qiáng)內(nèi)容,在游戲NPC交互方面,實(shí)時(shí)生成劇情對(duì)話,玩家留存率提升25%。
寫在最后
可以預(yù)見,隨著產(chǎn)業(yè)鏈技術(shù)的不斷成熟,大模型將在更多行業(yè)得到廣泛應(yīng)用,推動(dòng)各行業(yè)的智能化發(fā)展。隨著生成式模型在圖像、視頻側(cè)的處理能力提升,疊加推理優(yōu)化帶來的降本,AI超級(jí)應(yīng)用有望出現(xiàn),改變?nèi)藱C(jī)交互方式。從市場(chǎng)趨勢(shì)來看,全球大模型行業(yè)市場(chǎng)規(guī)模將持續(xù)擴(kuò)大,頭部企業(yè)將鞏固地位,新興企業(yè)將尋求突破。開源社區(qū)、合作伙伴和應(yīng)用開發(fā)者將成為生態(tài)競(jìng)爭(zhēng)的關(guān)鍵。完善的生態(tài)系統(tǒng)將增強(qiáng)用戶粘性,促進(jìn)技術(shù)創(chuàng)新。
-
AI
+關(guān)注
關(guān)注
87文章
34197瀏覽量
275346 -
百度
+關(guān)注
關(guān)注
9文章
2326瀏覽量
91810 -
DeepSeek
+關(guān)注
關(guān)注
1文章
773瀏覽量
1335
發(fā)布評(píng)論請(qǐng)先 登錄
百度搜索接入DeepSeek,業(yè)內(nèi)人士開始擔(dān)心

如何使用OpenVINO運(yùn)行DeepSeek-R1蒸餾模型

實(shí)戰(zhàn)案例 | 299元國(guó)產(chǎn)工業(yè)級(jí)AI核心板部署DeepSeek-R1

RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南
百度搜索全量接入DeepSeek-R1滿血版
Infinix AI接入DeepSeek-R1滿血版
了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇
百度智能云發(fā)布昆侖芯三代萬卡集群及DeepSeek-R1/V3上線
AIBOX 全系產(chǎn)品已適配 DeepSeek-R1

軟通動(dòng)力天璇MaaS融合DeepSeek-R1,引領(lǐng)企業(yè)智能化轉(zhuǎn)型
deepin UOS AI接入DeepSeek-R1模型
芯動(dòng)力神速適配DeepSeek-R1大模型,AI芯片設(shè)計(jì)邁入“快車道”!

評(píng)論