微軟發布視覺型AI新模型：Phi-3-vision

5 月 26 日消息，微軟近期推出其小語言 AI 模型新成員“Phi-3-vision”，以卓越的“視覺”處理能力著稱，能夠深度解析圖文信息并在移動設備上穩定運行。

據悉，Phi-3-vision 作為微軟 Phi-3 家族的首款多模態模型，繼承自 Phi-3-mini 的文本理解能力，兼具輕巧便攜特性，適用于移動平臺/嵌入式終端；模型參數規模達 42 億，遠超 Phi-3-mini（3.8B），略遜于 Phi-3-small（7B），上下文長度為 128k token，訓練時間跨度為 2024 年 2 月至 4 月。

值得關注的是，Phi-3-vision 模型的核心優勢在于其強大的“圖文識別”功能，能夠準確理解現實世界圖像的內涵，迅速識別并提取圖片中的文字信息。

微軟強調，Phi-3-vision 尤其適用于辦公場景，開發者針對圖表和方塊圖（Block diagram）識別進行了專門優化，使其能夠根據用戶輸入信息進行推理，并生成一系列決策建議，為企業提供戰略參考，被譽為“媲美大型模型”的效果。

在模型訓練環節，微軟表示 Phi-3-vision 采用了“多元化圖片與文字數據”進行訓練，涵蓋了一系列“精選的公共內容”，如“教科書級”教育素材、代碼、圖文標注數據、現實世界知識、圖表圖片、聊天記錄等，以保證模型輸入內容的豐富性。此外，微軟承諾所用訓練數據“可追溯”且不含任何個人信息，充分保障用戶隱私。

在性能對比方面，微軟提供了 Phi-3-vision 與字節跳動 Llama3-Llava-Next（8B）、微軟研究院與威斯康星大學、哥倫比亞大學聯合研發的 LlaVA-1.6（7B）以及阿里巴巴通義千問 QWEN-VL-Chat 模型等競品的對比圖表，展示了 Phi-3-vision 在多項測試中的優秀表現。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

微軟

微軟

+關注

關注
4

文章
6685

瀏覽量
105710
AI

AI

+關注

關注
88

文章
35065

瀏覽量
279306
模型

模型

+關注

關注
1

文章
3517

瀏覽量
50381

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

微軟發布視覺型AI新模型：Phi-3-vision

評論