近日,微軟官網宣布了一項重要更新。微軟發布了其視覺Agent解析框架OmniParser的最新版本V2。這一新版本具備將包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在內的大模型,轉化為“計算機使用智能體”(Computer Use Agent)的能力。
與前代版本相比,OmniParser V2在多個方面實現了顯著提升。在檢測更微小、可交互的元素時,V2展現了更高的精度和更快的推理速度。這一提升得益于V2采用了更大規模的交互元素檢測數據集和圖標功能描述數據進行訓練。
此外,OmniParser V2還通過縮小圖標描述模型的輸入圖像尺寸,進一步優化了推理性能。據微軟官方數據,與前代版本相比,V2的推理延遲降低了60%。這一改進使得OmniParser V2在處理復雜視覺任務時更加高效,為用戶提供了更加流暢、實時的交互體驗。
此次OmniParser V2的發布,不僅展示了微軟在人工智能領域的持續創新,也為大模型在計算機智能體領域的應用開辟了新的道路。
-
微軟
+關注
關注
4文章
6668瀏覽量
105361 -
計算機
+關注
關注
19文章
7626瀏覽量
90144 -
數據集
+關注
關注
4文章
1222瀏覽量
25273 -
大模型
+關注
關注
2文章
3020瀏覽量
3810
發布評論請先 登錄
在V2板子上部署豆包模型調試指南
微軟推出兩款全新銷售智能體
軟通計算機重磅發布DeepSeek大模型一體機產品

機智云發布Gokit5 AI智能體開發板:工業級智能體流水線重構AIoT開發范式

評論