DeepSeek的橫空出圈,仿佛重現(xiàn)了兩年前ChatGPT風靡全球的盛況。其開源策略和低成本的模式,正推動人工智能迎來一波新的發(fā)展浪潮。卓越模型能力的背后,DeepSeek在技術(shù)上有哪些創(chuàng)新?它又將如何改變我們的生活和產(chǎn)業(yè)?
2月15日,訊飛開放平臺攜手Datawhale、城西大走廊高聯(lián)會在位于杭州的浙江大學校友企業(yè)總部經(jīng)濟園舉辦了2025年開發(fā)者TALK首站活動。來自訊飛開放平臺以及行業(yè)、研究機構(gòu)的技術(shù)專家們,揭秘DeepSeek核心技術(shù)、分享DeepSeek精調(diào)方法和應用構(gòu)建,為線上線下4000+開發(fā)者帶來了一場干貨滿滿的分享。
全方位模型服務,助力開發(fā)者應用創(chuàng)新
自2022年大模型發(fā)布以來,大模型應用呈現(xiàn)爆發(fā)式增長,逐步邁入“深水區(qū)”,與場景的結(jié)合也愈發(fā)緊密,行業(yè)內(nèi)逐步形成共識:通用模型+專有云模型才能更好地解決場景問題。
目前,大模型應用主要是模型能力+數(shù)據(jù),能力有通用能力與定制能力,數(shù)據(jù)有通用數(shù)據(jù)與個性化數(shù)據(jù)。例如,AI+代碼是典型的“通用能力+通用數(shù)據(jù)能力”簡單組合;AI+會議是“通用能力+個性化數(shù)據(jù)”簡單組合。未來大模型更好地進入企業(yè)一定是定制能力+個性化數(shù)據(jù)的多能力復雜組合。而未來大模型開發(fā)的機會在:模型能力定制化、產(chǎn)品能力復雜化、數(shù)據(jù)能力個性化。訊飛星辰MaaS平臺總監(jiān)張林芳在《訊飛星辰MaaS平臺模型定制到智能體構(gòu)建》主題分享中表示。
應對模型能力定制化需求,訊飛發(fā)布的星辰MaaS平臺,提供包含數(shù)據(jù)構(gòu)建、模型選型、精調(diào)訓練、效果評估、大模型云+端托管以及數(shù)據(jù)回流的成熟精調(diào)流水線,助力開發(fā)者高效完成效果定制,構(gòu)建數(shù)據(jù)飛輪,持續(xù)推進大模型迭代。其中,在模型選型上,星辰MaaS平臺秉承開放理念,支持星火+主流開源的36個模型精調(diào),開放人設(shè)、醫(yī)療等場景模型精調(diào)。近期,已經(jīng)業(yè)界首發(fā)了DeepSeek全系模型精調(diào),推理API限時免費,支持獨享部署,即銷即用。
應對產(chǎn)品能力組合復雜化需要,訊飛發(fā)布了星辰智能體應用開發(fā)平臺。星辰智能體應用開發(fā)平臺以MoM混合應用架構(gòu)為核心,提供從應用開發(fā)到測試、優(yōu)化一整套大模型應用開發(fā)工具鏈。支持訊飛1+N模型,開源優(yōu)質(zhì)DeepSeek模型,和所有微調(diào)模型組合構(gòu)建應用。面對硬件產(chǎn)品接入大模型遇到的業(yè)務需求、開發(fā)技術(shù)棧、軟硬環(huán)境等問題,星辰智能體應用開放平臺提供了專門的SDK開發(fā)框架,讓開發(fā)者專注于硬件產(chǎn)品創(chuàng)新,用最短路徑實現(xiàn)產(chǎn)品成功。
應對數(shù)據(jù)能力個性化需求,訊飛則首發(fā)了混域搜索技術(shù),支持個人私域知識,企業(yè)知識庫以及IT系統(tǒng)私域知識,和互聯(lián)網(wǎng)信息進行統(tǒng)一的搜集分析,形成大模型外掛知識。通過這套技術(shù),知識召回準確率提升30%,長文本知識融合準確率提升40%,句子級知識溯源準確率達90%。
從R1-Zero到R1,揭秘DeepSeek核心技術(shù)
DeepSeek展現(xiàn)出的強大推理能力,讓人震驚的同時,也讓許多開發(fā)者對其背后的技術(shù)細節(jié)充滿興趣。它在技術(shù)上有哪些突破?哪些是站在前人的肩膀上優(yōu)化的?哪些是自己的原創(chuàng)創(chuàng)新?在現(xiàn)場,Datawhale Hugging LLM開源項目負責人長琴深度剖析了DeepSeek的核心技術(shù)點,期望能為開發(fā)者研究大模型帶來啟發(fā)。
首先是基于純規(guī)則強化學習的DeepSeek-R1-Zero,不僅在訓練過程中展現(xiàn)出的思考和自我反思能力,使語言模型更接近人類的思維方式,而且效果還不錯。當然,瑕疵是語言混合和可讀性不友好。緊跟著就是兩個問題:少量高質(zhì)量數(shù)據(jù)SFT后能否讓后續(xù)的RL效果進一步變好?模型能否同時兼容推理和通用模式?R1通過先用少量高質(zhì)量數(shù)據(jù)SFT模型作為R1-Zero的起點(冷啟動),然后使用R1-Zero的RL方法(增加了語言一致性,讓結(jié)果更可讀)訓練得到的模型來生成高質(zhì)量數(shù)據(jù),然后再做SFT和對齊,使得模型不僅在推理任務上表現(xiàn)出色,在非推理的常規(guī)任務上也取得了優(yōu)異的效果。
DeepSeek-R1的相關(guān)技術(shù)研究也給開發(fā)者帶來諸多啟示。比如Oat-Zero的相關(guān)研究發(fā)現(xiàn)強化學習(RL)能將Base的表面自我反思轉(zhuǎn)化為有效自我反思,但是長度并不一定增加,而且Base模型也會Aha Moment;再比如DeepScaleR的相關(guān)研究中發(fā)現(xiàn)強化學習(RL) 縮放也可以表現(xiàn)在小模型 (1.5B) 中,高質(zhì)量的SFT+RL結(jié)合能達到更好效果;再比如LIMO、s1等相關(guān)研究中發(fā)現(xiàn) 少量SFT(1000條)同樣可以激活推理能力;以及模型越大越新越好、無論Instruct還是Base模型都可以驗證R1-Zero等。長琴在分享中提到。
AI驅(qū)動科研范式變革,開啟新的大航海時代
從藥物研發(fā)到農(nóng)業(yè)育種,從氣象預測到海洋智能預報,AI正在改變?nèi)祟愡M行科學研究的方式。2024年的諾貝爾物理學獎、化學獎都頒給AI領(lǐng)域,再次將AI推到了科學舞臺的中央,標志著AI在科學研究中的重要地位得到了認可。
AI For Science的典型案例就是蛋白質(zhì)折疊模型AlphaFold。傳統(tǒng)方法每年只能解析少量蛋白質(zhì)結(jié)構(gòu),Alphafold已經(jīng)預測了超過2億種蛋白質(zhì)結(jié)構(gòu),推動了生命科學的巨大進步,已擁有來自190個國家的200多萬用戶。以此模型為基礎(chǔ),對于科研設(shè)備、科學人員、科學數(shù)據(jù)和科學流程都有很大的幫助。之江實驗室助理研究員張驥在分享中舉例說。
AI正在開啟人類科學發(fā)展新的大航海時代。張驥認為,在AI驅(qū)動科學范式變革方面,模型、數(shù)據(jù)、算力是關(guān)鍵因素。
在科研領(lǐng)域,中國科學院文獻情報中心與科大訊飛股份有限公司共同研發(fā)的基于科技文獻大模型的智能知識服務平臺——星火科研助手,幫助研究人員對文獻進行深度解讀、提煉,提升科研效率。累計服務科研用戶9.3萬人,功能調(diào)用次數(shù)240萬次+,用戶覆蓋全國1300多所高校。用戶可在訊飛星火APP/網(wǎng)頁端搜索“星火科研助手”體驗。
融合行業(yè)場景,生成式AI驅(qū)動機器人行業(yè)變革
陸地、隧道、天上、水里,各類形態(tài)的智能機器人正在不同行業(yè)應用,尤其是在工業(yè)領(lǐng)域,機器人不僅能保障人員安全,還可大大提高工作的效率和準確性。生成式AI技術(shù)的出現(xiàn)也為機器人行業(yè)帶來了根本性變化。
從ANI(狹義人工智能)和AGI(通用人工智能)的區(qū)別出發(fā),申昊科技算法工程師鄭程睿介紹了公司在故障檢測、數(shù)字孿生、醫(yī)院查房機器人和人形機器人四款應用上,進行的大模型技術(shù)探索。以檢測輸電塔是否有鳥巢為例,因為物理場景數(shù)據(jù)很稀少,運用無人機逐個進行拍照成本過高,而利用少量圖片訓練Stable Diffusion和LoRA模型生成多樣化的圖像,則可以做到降本增效。
對于具身智能未來的發(fā)展,鄭程睿認為,當前具身智能的發(fā)展仍處于初級階段,未來具身智能應該是兩種大模型:視覺語言動作模型和視覺語言導航模型,也可以與深度思考推理模型結(jié)合。
除了精彩的演講之外,本次活動還設(shè)置了AI面對面交流環(huán)節(jié)。與會開發(fā)者以分組的形式圍繞“DeepSeek的應用創(chuàng)新、大模型未來發(fā)展趨勢”等問題,與分享嘉賓進行了討論。
DeepSeek的爆火不僅從技術(shù)到產(chǎn)業(yè)帶來了一場前所未有的技術(shù)變革,也為開發(fā)者帶來了前所未有的機遇。現(xiàn)在,進入訊飛星辰MaaS平臺官網(wǎng),通過DeepSeek精調(diào)服務,開發(fā)者即可在極短時間內(nèi)(最快15分鐘)以超低成本(最低僅需數(shù)元)打造專屬定制模型,創(chuàng)建新的AI應用。
致力于通過前沿技術(shù)分享、優(yōu)秀項目分享推介、面對面討論,為來自企業(yè)、高校、科研院所的開發(fā)者提供沉浸式學習與交流平臺。自2023年11月22日開啟第一站以來,開發(fā)者TALK在深圳、武漢、南京、成都等地留下足跡,鏈接了上千名開發(fā)者,幫助他們將想法變成了更多的創(chuàng)意和落地案例,推動人工智能產(chǎn)業(yè)繁榮。
AI技術(shù)的發(fā)展日新月異,2025年,開發(fā)者TALK將繼續(xù)舉辦多形式活動,聆聽開發(fā)者需求,幫助開發(fā)者便捷地將大模型技術(shù)應用在實際業(yè)務中。
-
訊飛開放平臺
+關(guān)注
關(guān)注
0文章
19瀏覽量
11668 -
大模型
+關(guān)注
關(guān)注
2文章
3030瀏覽量
3832 -
DeepSeek
+關(guān)注
關(guān)注
1文章
777瀏覽量
1358
原文標題:揭秘DeepSeek核心技術(shù)與應用構(gòu)建 | 開發(fā)者TALK開年首站落地杭州
文章出處:【微信號:訊飛開放平臺,微信公眾號:訊飛開放平臺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
科通技術(shù)推出DeepSeek+AI芯片全場景方案
取樣示波器的技術(shù)原理和應用場景
DeepSeek的100個應用場景
敏捷合成器的技術(shù)原理和應用場景
直接數(shù)字式頻譜分析儀的技術(shù)原理和應用場景
了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇
時域反射計的技術(shù)原理和應用場景
深入探討DeepSeek大模型的核心技術(shù)

評論