5 月 28 日,微軟在 Build 2024 大會(huì)上推出了最新的 Phi-3 系列成員——Phi-3-vision。這一工具主打視覺應(yīng)用,能有效處理圖片文字信息,且在移動(dòng)設(shè)備上也能運(yùn)行自如。
Phi-3-vision 是一種小型多模式語言模型(SLM),主要適用于本地人工智能場景。其模型參數(shù)高達(dá) 42 億,上下文序列包含 128k 個(gè)符號(hào),可滿足各種視覺推理和其他任務(wù)需求。
Microsoft 通過一篇新發(fā)表的論文[PDF]展示了 Phi-3-vision 的強(qiáng)大實(shí)力。與其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不遜色。
此外,Microsoft 還對(duì) Phi-3-vision 進(jìn)行了多項(xiàng)測(cè)試,并將其與其他競品模型進(jìn)行了比較,包括字節(jié)跳動(dòng)的 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學(xué)、哥倫比亞大學(xué)聯(lián)合開發(fā)的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等。結(jié)果表明,Phi-3-vision 在多個(gè)項(xiàng)目中的表現(xiàn)均十分出色。
-
微軟
+關(guān)注
關(guān)注
4文章
6671瀏覽量
105364 -
人工智能
+關(guān)注
關(guān)注
1804文章
48691瀏覽量
246413 -
語言模型
+關(guān)注
關(guān)注
0文章
558瀏覽量
10667
發(fā)布評(píng)論請(qǐng)先 登錄
DevEco Studio AI輔助開發(fā)工具兩大升級(jí)功能 鴻蒙應(yīng)用開發(fā)效率再提升
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
添越智創(chuàng)基于 RK3588 開發(fā)板部署測(cè)試 DeepSeek 模型全攻略
字節(jié)跳動(dòng)發(fā)布豆包大模型1.5 Pro
在算力魔方上本地部署Phi-4模型

虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發(fā)布
三星發(fā)布Vision AI及Neo QLED旗艦電視
微軟尋求在365 Copilot中引入非OpenAI模型
Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)
微軟預(yù)覽版Copilot Vision AI功能上線
AI干貨補(bǔ)給站04 | 工業(yè)AI視覺檢測(cè)項(xiàng)目實(shí)施第三步:模型構(gòu)建

用Ollama輕松搞定Llama 3.2 Vision模型本地部署

微軟發(fā)布Azure AI Foundry,推動(dòng)云服務(wù)增長
在英特爾酷睿Ultra7處理器上優(yōu)化和部署Phi-3-min模型

評(píng)論