今天,基于全國產算力訓練的深度推理大模型——訊飛星火X1升級版正式上線。
這是一次全面的躍升:
綜合能力大幅提升。整體效果對標OpenAI o3等國內外一流大模型最新版本效果,在翻譯、推理、文本生成、數學等方面保持領先。
幻覺治理取得顯著進步。幻覺問題是掣肘大模型落地應用的關鍵問題,升級后的星火X1在幻覺治理方面領先業界主流模型。
多語言能力已覆蓋130+語種。為世界提供全棧自主可控大模型底座的“第二種選擇”。
基于星火X1底座的語音同傳大模型在翻譯效果、實時響應、語音聽感、專業精深等方面大幅躍升,持續行業領先。
得益于星火X1模型的升級,教育、醫療、企業應用、代碼、科研等行業大模型和智能體也取得了新的進步,在復雜行業場景任務上進一步解決用戶關鍵剛需。
星火X1最新升級的能力可直接在訊飛星火網頁版和APP進行體驗,全新API已同步上線訊飛開放平臺。
構建可信任的AI底座,打造懂你的“全場景助手”。
接下來,我們一起來看看具體細節吧!
訊飛星火×1再升級
懂你的AI更進一步
此次升級,星火X1在多個任務上持續進步,綜合能力再升級,特別是在翻譯、推理、文本生成、數學、多語言上效果亮眼。
同時,在幻覺治理方面,對于大模型自身生成內容是否符合客觀事實的事實性幻覺治理,以及在用戶給定額外參考資料時大模型回復是否忠于原文的忠實性幻覺治理兩方面均取得明顯進步,顯著提高了大模型行業落地應用的可靠性。
*測試集合來源:基礎能力測試集來自真實的大模型請求任務數據,來源分布包括訊飛星火APP、星火大模型API真實開發者場景、業界主流任務數據等進行滾動更新;公開測試集以數學、答題、推理、代碼等外部典型Benchmarks為主;忠實性幻覺測試集由Vectara推出的大模型排行榜Hallucination Leaderboard中公開的測試集,事實性幻覺測試集來自計算機、法律、歷史等30多個領域的真實知識問答數據組成。
今年6月,在國內大模型挑戰全國高考數學一卷的評測中,星火X1-0420版本突破了140分。本次升級,數學能力再次精進。
例如,2025年全國高考數學一卷的最后一題,難住了不少大模型,星火X1-0720版本完美答對~
多語言也是此次升級的一大亮點。
現在,星火X1已經能夠支持130多種語種了,不管是日常問答、解數學題、寫文章還是翻譯,都能搞定,無障礙跨語言交流更進一步。
下面這個視頻就展示了多種語言的各方面能力,涵蓋了韓語、泰語、菲律賓語、老撾語、俄語、日語、法語、阿拉伯語、越南語、西班牙語、葡萄牙語、德語、印尼語、馬來語、緬甸語等。
有了星火X1強大的多語言能力加持,訊飛的同傳會議服務、SaaS端產品,還有訊飛翻譯機、訊飛AI錄音筆這些智能設備,翻譯效果和用戶體驗都上了一個新臺階。
這背后離不開三大核心技術的突破——
強化學習技術:提出了結合評語模型與細粒度反饋的強化學習技術,將單一標量獎勵信號升級為文本級評語信號、在回復各步驟提供細粒度獎勵的強化學習改進方案,有效降低了數學答題等任務的訓練難度,解決了獎勵稀疏痛點;
數據反寫技術:提出基于人類專家數據的通用認知任務數據反寫技術,極大緩解了SFT高質量數據獲取困難、人工標注數據成本過高等問題,實現了主觀語言類任務文筆和風格化的顯著提升;
幻覺治理技術:提出了基于多路徑采樣驗證及事實性約束強化學習的幻覺治理技術,在大模型思考過程及回復生成階段實現客觀問題上與標準答案的深度強對齊,大幅減少了在慢思考下的幻覺率,有效保障了文本摘要、RAG等任務的回復可靠性。
星火語音同傳大模型
同傳體驗大幅躍升
基于星火X1底座的語音同傳大模型也全面升級,持續保持領先,在翻譯效果、實時響應、語音聽感、專業精深四大維度實現了顯著進步,并且具備語種免切換能力。
*測試集合來源:測試集合是根據訊飛翻譯機、訊飛同傳等真實業務場景隨機采樣構建的測試集;測試指標為翻譯綜合質量得分(分值0~100分)
母語般交流,翻譯綜合質量超90分
在翻譯效果上,基于內容完整度、信息準確度、語言質量等多方面主客觀評價計算翻譯綜合質量得分(分值0~100分),新版本同傳大模型效果較2025年1月首發版本提升20%,特別是有效消除了傳統同傳的碎片化割裂感,交流如母語般順暢。在多人會議等復雜場景中英雙向翻譯得分可達80分以上,單人演講翻譯得分超90分,顯著領先業界。
極致響應,首響快至2秒
響應速度實現重大突破,在保證翻譯質量的基礎上,中英同傳的首字響應時間從首發版本的5秒縮短到最快2秒,達到了人類高階同傳的行業標準要求。即使在復雜會議或專業研討這些高難度場景中,系統也能保持準確性和穩定的實時響應能力。
邊譯邊說,語音聽感更擬人更舒適
業界首創基于文本自適應調度的流式語音合成技術,讓“譯”與“說”無縫耦合,在語音聽感上的自然度、擬人度和舒適度顯著躍升。點開音頻感受一下吧~
專業精深,高壁壘行業率先可用
針對醫療、制造業、金融等高壁壘專業領域進行深度優化,覆蓋超過8萬個垂直領域專業詞匯,專業內容翻譯得分突破90分,在業內率先達到可用水平,專業內容和完整性方面甚至超過了一般同傳譯員,為跨國醫療合作、國際制造業交流等專業場景提供了可靠的技術支撐。
無縫交流,語種免切換
具備智能雙語識別功能,能夠自動識別中英文混合發言并實時切換翻譯方向。在雙邊會議、國際商務洽談等中英交替的場景中,參會者可以隨時用母語發言,有效避免了因語言切換操作而造成的交流中斷。
全系產品上線,無障礙溝通
最新語音同傳大模型已經在訊飛雙屏翻譯機2.0、訊飛AI錄音筆、訊飛同傳等產品中全面上線。
同時,作為2025世界人工智能大會的“翻譯合作伙伴”,科大訊飛的系列AI翻譯產品將為大會提供“無障礙溝通”服務。
行業落地深入推進
解決“真問題”,提升“真體驗”
“能用”和“好用”之間,差的是技術深度與落地廣度。新版本的星火X1底座,已經全面賦能了教育、醫療、企業應用、代碼、科研等行業大模型和智能體,在復雜行業場景任務上進一步解決用戶關鍵剛需。
教育:讓學習更個性,讓教學更高效
用于個性化教與學全場景的作業批改、個性化推薦、答疑輔學、科普問答、口語學習等各項能力顯著提升,持續保持業界領先,推動應用成效顯著提升。
*測試集合來源:測試集合基于備授課、考試、作業、科普、學習等真實場景數據隨機抽樣。
面向學生自主學習的科大訊飛AI學習機:
AI 1對1精準學、AI 1對1答疑輔導、AI 1對1互動課、奇思妙問科普知識問答、英語口語學習等效果持續提升,通過個性化、啟發式、互動式提升孩子學習興趣和學習效率,同時為孩子智能生成個性化的學習方案。
面向教師備授課的星火教師助手:
教案和課件生成的合理性與適切性大幅提升,更接近優秀教師的水平,同時能夠提供更富創見的教學思路與活動設計,有效激發學生的好奇心與探究欲,有助于教師培養學生的高階思維能力。
面向校內作業和考試的星火智能批閱機:
實現“即掃即批即留痕”,數學主觀題步驟批改、英語作文評分批改及個性化評語效果顯著,助推全學科全題型批改邁上新臺階。
面向英語口語學習和模考的E聽說:
率先實現“檢錯-評分-反饋-指導-提升”的英語口語學習閉環,為英語學科的課堂教學、個人自主練習提供更加有效的反饋和指導。
醫療:讓診療更專業,讓健康管理更主動
星火X1升級助力醫療領域各項能力全面提升,在全科輔助診斷、體檢報告解讀、健康咨詢、導醫導診等通用醫療任務上持續保持業界大幅領先。
*測試集合來源:測試集合來自基層診療、醫院病歷、互聯網問診等真實場景數據隨機抽樣。
服務居民健康——
星火醫療大模型的體檢報告解讀、健康咨詢已經應用于AI健康助手“訊飛曉醫”APP,實現從“被動咨詢”邁向“主動干預”新階段。
出院患者康復——
星火醫療大模型賦能的全程患者管理平臺,人機協同輔助醫生患者管理效率相比傳統患者管理方式目前已經提升10倍以上。
醫生輔助診療——
實現從基層全科到院端專科、從門診到住院的快速技術演進,在四川大學華西醫院、北京安貞醫院、中國科學技術大學附屬第一醫院等多家頭部醫院試點應用,核心效果保持業界引領。
同時,星火醫療大模型與三甲醫院主治醫師進行了雙盲對比評測,結果表明星火醫療大模型在心血管內科、兒科、呼吸內科三個科室的綜合診療能力總體達到三甲醫院主治醫師水平。模型給出的病因分析及診斷推薦在準確性和專業性上已經超過主治醫師水平,同時在可讀性和完整性方面具有明顯優勢,在實際應用中可增強患者對診療建議的依從性。
*測試集合來源:測試集合來自心血管內科、兒科、呼吸內科真實場景數據隨機抽樣。
*評測說明(回溯性研究):構建心血管內科、兒科、呼吸內科真實臨床診療病歷數據,組建對應專科4位三級甲等醫院主治醫師團隊,再由對應專科2名主任醫師對星火醫療大模型和主治醫師回復結果進行雙盲評測。
企業:讓知識獲取更智能,讓場景應用更深入
對于大模型企業落地深度應用,將企業存量的知識通過智能零采編的方式為大模型所使用是激活企業知識應用的重要技術。結合個人知識庫、企業知識庫和互聯網信息進行知識融合,輔助行業研究人員開展政策研究、商情分析、態勢感知,將大幅提升企業經營決策效率。
多模態知識零采編系統升級,加速支撐企業知識應用
面向企業知識工程的多模態知識零采編系統,目前能夠針對復雜的長文檔自動構建語義圖譜,進而實現行業推理能力提升15%,多模態融合問答能力提升30%,顯著助力行業高質量數據集構建,在規章制度推理、金融產品推理等復雜場景任務完成率提高10%以上。
多個分析型智能體的協同,高效支撐行業深度分析
面向行業深度分析的星火行業大師產品,通過混域檢索生成技術,能夠對個人知識、企業私域知識與互聯網知識等多級知識快速完成信息整合,結合宏觀經濟分析智能體、產業鏈診斷智能體及競爭格局預測智能體等多個分析型智能體有效協同,打造了專業的研究報告生成能力,目前在產業趨勢預測的核心結論采納率突破70%。面向金融、能源、制造等復雜領域的實踐表明,通過與資深分析師的緊密協作,可以在1小時內完成復雜行業分析工作,大幅提升了工作效率。
*測試集合來源:測試集合來自認知智能全國重點實驗室與多家企業聯合構建的實用場景測試集。
項目級代碼理解與生成能力持續提升,各行業取得深度應用
面向軟件研發提質增效的星火代碼大模型,有效提升了項目級代碼理解與生成、單元測試智能體、WEB應用對話式編程等核心任務表現。目前,星火代碼大模型已深度賦能金融、制造、能源、科技等100余家關鍵領域客戶,在典型應用場景中驅動研發效率提升超過50%,助力企業在數字時代贏得競爭新優勢。
*測試集合來源:測試集合來自認知智能全國重點實驗室構建的代碼實用場景測試集。
持續打造懂你的AI助手
個人用戶體驗升級
訊飛星火(APP及PC版)已上線全新的星火X1推理模型,讓你的AI助手變得更聰明、更精準!文本創作、數學解題、視頻制作、會議紀要、超擬人對話等核心功能持續優化,真正成為懂你的AI助手。
另外,特別為大學生朋友們定制了科研論文輔助、簡歷生成與潤色、面試模擬等實用工具,全方位陪伴大家的成長之路。
訊飛星火X1 PC版體驗地址
https://xinghuo.xfyun.cn/desk
開發者平臺全面賦能
星火Agent平臺依托全開放架構,整合16000+個MCP工具,成為“效果最佳、工具最全、服務最優”的生產級智能體平臺。提供Prompt對比調優和全鏈路測評功能,讓開發者輕松搭建智能體應用。
星火Agent平臺體驗地址
https://agent.xfyun.cn/home
全新的星火X1 API已同步上線訊飛開放平臺,通過AI技術與產業需求融合,在辦公協作、營銷推廣、智能硬件等場景中發揮作用,為開發者提供全球一流的大模型服務。
訊飛星火X1 API體驗地址
https://xinghuo.xfyun.cn/sparkapi
以“可信”與“更懂你”為目標,構建“解放生產力、釋放想象力”的堅實底座。
星火X1的每一次升級,都是為了能夠成為更懂你的AI助手。
未來,我們將繼續讓AI走進教育、醫療、工作和生活的每一個角落,用科技點亮美好生活!
*文中數據來源于實際應用
-
科大訊飛
+關注
關注
19文章
842瀏覽量
62530 -
算力
+關注
關注
2文章
1215瀏覽量
15707 -
大模型
+關注
關注
2文章
3183瀏覽量
4141
原文標題:訊飛星火X1升級版正式上線!
文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論