微軟近日宣布,視覺Agent解析框架OmniParser已發布最新版本V2。這一新版本具有將大型語言模型如OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)以及Anthropic(Sonnet)等,轉化為“計算機使用智能體”(Computer Use Agent)的能力。
與前一版本相比,OmniParser V2在檢測更微小、可交互的元素時展現出了更高的精度和更快的推理速度。這一顯著提升得益于V2采用了更大規模的交互元素檢測數據集和圖標功能描述數據進行訓練。通過這些訓練,OmniParser V2能夠更好地理解和識別計算機界面中的各種元素,從而為用戶提供更加智能、便捷的操作體驗。
此外,OmniParser V2還通過縮小圖標描述模型的輸入圖像尺寸,進一步降低了推理延遲。據微軟透露,與前代版本相比,V2的推理延遲降低了60%,這意味著用戶可以更加迅速地獲得系統的響應和反饋。
微軟OmniParser V2的發布,標志著大型語言模型在計算機使用智能體領域的應用取得了重要進展。
-
微軟
+關注
關注
4文章
6667瀏覽量
105345 -
計算機
+關注
關注
19文章
7626瀏覽量
90112 -
大模型
+關注
關注
2文章
3011瀏覽量
3790
發布評論請先 登錄
在V2板子上部署豆包模型調試指南
求助,關于LT8625SP在LTPOWERCADII V2中的疑問求解
軟通計算機重磅發布DeepSeek大模型一體機產品

評論