來源:谷歌黑板報
作者:
Tulsee Doshi,產品管理高級總監,代表 Gemini 團隊
今年 3 月,我們發布了迄今為止最智能的模型 Gemini 2.5 Pro,兩周前,我們提前為您帶來了 I/O 更新,以便開發者構建出色的網絡應用。今天,我們分享 Gemini 2.5 模型系列的更多更新:
除了 2.5 Pro 在學術基準測試中令人難以置信的性能外,它現在還是 WebDev Arena 和 LMArena 排行榜上的全球領先模型,并且在幫助人們學習方面表現出色。
我們正在為 2.5 Pro 和 2.5 Flash 帶來新功能: 用于更自然對話體驗的原生音頻輸出、更高的安全防護,以及 Project Mariner 的計算機使用功能。2.5 Pro 還將通過 Deep Think,一種用于高度復雜的數學和編程的實驗性增強推理模式,進一步升級。
我們繼續投資于開發者體驗,在 Gemini API 和 Vertex AI 中引入了模型推理摘要以提高透明度,將模型推理預算擴展到 2.5 Pro 以實現更多控制,并在 Gemini API 和 SDK 中添加了對 MCP 工具的支持,以便訪問更多開源工具。
2.5 Flash 現在已在 Gemini 應用中向所有人開放,我們將在 6 月初在 Google AI Studio 中向開發者以及在 Vertex AI 中向企業全面提供更新版本,2.5 Pro 也將緊隨其后。
這一顯著進展是 Google 各團隊不懈努力的結果,旨在改進我們的技術,并安全負責地開發和發布它們。下面讓我們從以下方面深入了解。
2.5 Pro 表現更勝以往
我們最近更新了 2.5 Pro,以幫助開發者構建更豐富、更具交互性的網絡應用。非常高興看到用戶和開發者的積極反響,同時我們正在根據用戶反饋不斷改進。
除了在學術基準測試中的出色表現外,新的 2.5 Pro 現在正領跑流行的編碼排行榜 WebDev Arena,ELO 分數為 1415。它還在 LMArena 排行榜的所有類別中處于領先地位,該排行榜評估人類在不同維度上的偏好。而且,憑借其百萬級令牌的上下文窗口,2.5 Pro 擁有最先進的長上下文和視頻理解性能。
自從融入了與教育專家合作構建的學習模型系列 LearnLM 以來,2.5 Pro 現已成為領先的學習模型。在對其教學法和有效性進行的直接比較中,教育工作者和專家在各種場景下都更青睞 Gemini 2.5 Pro,而非其他模型。并且,在構建用于輔助學習的 AI 系統的學習科學的五項原則中,它在每一項上都超越了頂級模型。
Deep Think
通過探索 Gemini 思維能力的邊界,我們開始測試 Deep Think 的增強推理模式,它采用新的研究技術,使模型能夠在回應之前考慮多種假設。
2.5 Pro Deep Think 在目前最難的數學基準之一 2025 USAMO 上取得了令人印象深刻的分數。它還在一個針對競賽級編程的難度基準 —— LiveCodeBench 上處于領先地位,并在測試多模態推理的 MMMU 上取得了 84.0% 的分數。
由于 2.5 Pro DeepThink 是一項非常前沿的技術,我們正在額外花費時間進行更多的前沿安全評估,并從安全專家那里獲得進一步的反饋。作為其中的一部分,我們將在廣泛發布之前,通過 Gemini API 將其提供給受信任的測試人員,以獲取他們的反饋。
更優秀的 2.5 Flash
2.5 Flash 是我們最高效的主力模型,專為速度和低成本而設計——現在它在很多維度上都更優秀了。它在推理、多模態、代碼和長上下文的關鍵基準測試中都得到了改進,同時效率更高,在我們的評估中使用的令牌數量減少了 20-30%。
新的 2.5 Flash 現在已在 Google AI Studio 中向開發者、在 Vertex AI 中向企業用戶以及在 Gemini 應用中向所有人提供預覽版。6 月初,它將全面上線可用。
Gemini 2.5 新功能
原生音頻輸出和 Live API 的改進
今天,Live API 正在推出視聽輸入和原生音頻輸出對話的預覽版,這樣您就可以直接構建更自然、更富有表現力的 Gemini 對話體驗。
它還允許用戶控制其說話的語調、口音和風格。例如,您可以告訴模型在講故事時使用戲劇性的聲音。該模型現在還支持工具使用,以便能夠代表您進行搜索。
您可以體驗以下一些早期功能:
情感對話 (Affective Dialogue): 模型能夠檢測用戶聲音中的情感并作出適當回應。
主動音頻 (Proactive Audio): 模型將忽略背景對話并知道何時回應。
Live API 中的模型推理能力 (Thinking in the Live API): 模型利用 Gemini 的模型推理能力來支持更復雜的任務。
我們還在發布 2.5 Pro 和 2.5 Flash 的文本轉語音新預覽版。這些版本首次支持多位說話人,能夠通過原生音頻輸出實現兩種聲音的文本轉語音。
與原生音頻對話一樣,文本轉語音富有表現力,可以捕捉非常微妙的細微差別,例如耳語。它支持超過 24 種語言,并可以在它們之間無縫切換。
這項文本轉語音功能現已在 Gemini API 中可用。
計算機使用功能
我們正在將 Project Mariner 的計算機使用功能引入 Gemini API 和 Vertex AI。像 Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 這樣的公司正在探索其潛力,我們很高興能在今年夏天更廣泛地推出它,供開發者進行實驗。
更高的安全性
我們還顯著增強了對例如間接提示詞注入攻擊等安全威脅的防護。間接提示詞注入攻擊是指將惡意指令嵌入到 AI 模型檢索的數據中。我們的新安全方法有助于顯著提高 Gemini 在使用過程中對抗間接提示詞注入攻擊的防護率,使 Gemini 2.5 成為我們迄今為止最安全的模型系列。
增強的開發者體驗
模型推理摘要
2.5 Pro 和 Flash 現在將在 Gemini API 和 Vertex AI 中包含模型推理摘要。模型推理摘要會將模型的原始模型推理組織成清晰的格式,包含標題、關鍵細節以及有關模型操作的信息,例如何時使用工具。
我們希望通過更結構化、更精簡的模型推理過程格式,開發者和用戶會發現與 Gemini 模型的交互更容易理解和調試。
模型推理預算
我們推出了帶有模型推理預算的 2.5 Flash,通過平衡延遲和質量,讓開發者更好地控制成本。我們將此功能擴展到 2.5 Pro。這允許您控制模型在響應前用于模型推理的令牌數量,甚至可以關閉其模型推理能力。
帶有預算功能的 Gemini 2.5 Pro 將在未來幾周內與我們全面發布的模型一起,正式用于穩定生產環境。
MCP 支持
我們在 Gemini API 中添加了對模型上下文協議 (Model Context Protocol, MCP) 定義的原生 SDK 支持,以便更輕松地與開源工具集成。我們還在探索部署 MCP 服務器和其他托管工具的方法,讓您更容易構建智能體應用。
我們一直在探索新的方法來改進我們的模型和開發者體驗,包括使其更高效且性能更強,并持續響應開發者的反饋,所以請繼續提出寶貴意見!同時,我們持續在基礎研究的廣度和深度上加倍投入——包括推動 Gemini 能力的邊界。更多內容即將推出。
-
Gemini
+關注
關注
0文章
64瀏覽量
7828 -
AI
+關注
關注
87文章
34000瀏覽量
275041 -
模型
+關注
關注
1文章
3479瀏覽量
49929
原文標題:Gemini 2.5: 我們最智能的模型系列再升級
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
谷歌AI霸主歸來!多線反擊OpenAI,開啟安卓Gemini時代

谷歌Gemini API最新進展
谷歌 Gemini 2.0 Flash 系列 AI 模型上新
三星 Galaxy S25 系列與谷歌 Gemini 深度整合
谷歌Gemini AI目標年底用戶達5億
借助谷歌Gemini和Imagen模型生成高質量圖像

評論