女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于AX650N+CLIP的以文搜圖展示

愛(ài)芯元智AXERA ? 來(lái)源:愛(ài)芯元智AXERA ? 2023-11-01 16:44 ? 次閱讀

背景

元?dú)鉂M滿的10月份就結(jié)束了,時(shí)間不長(zhǎng),卻產(chǎn)出了上千張照片,找到自己想要的照片有點(diǎn)難度。希望有一種精確的以文搜圖的方法,快速定位到某一類(lèi)圖片(例如:金色頭發(fā)的小姐姐……)。

之前大家熟悉的計(jì)算機(jī)視覺(jué)模型(CV)基本上是采用監(jiān)督學(xué)習(xí)的方式,基于某一類(lèi)數(shù)據(jù)集進(jìn)行有限類(lèi)別的任務(wù)學(xué)習(xí)。這種嚴(yán)格的監(jiān)督訓(xùn)練方式限制了模型的泛化性和實(shí)用性,需要額外的標(biāo)注數(shù)據(jù)來(lái)完成訓(xùn)練時(shí)未曾見(jiàn)過(guò)的視覺(jué)“概念”。

能否有一種“識(shí)別萬(wàn)物”的圖像識(shí)別大模型呢?今天就借此機(jī)會(huì),通過(guò)實(shí)操來(lái)重溫下由OpenAI在2021年初發(fā)布的Zero-Shot視覺(jué)分類(lèi)模型CLIP,并移植到愛(ài)芯派Pro上實(shí)現(xiàn)簡(jiǎn)單的以圖搜文示例。

CLIP

900da2c0-7882-11ee-939d-92fbcf53809c.jpg

Summary of our approach

2021年初由OpenAI發(fā)布的Zero-shot的視覺(jué)分類(lèi)模型CLIP(Contrastive Language–Image Pre-training),該預(yù)訓(xùn)練的模型在沒(méi)有微調(diào)的情況下在下游任務(wù)上取得了很好的遷移效果。作者在30多個(gè)數(shù)據(jù)集上做了測(cè)試,涵蓋了OCR、視頻中的動(dòng)作檢測(cè)、坐標(biāo)定位等任務(wù)。作者特意強(qiáng)調(diào)了CLIP的效果:沒(méi)有在ImageNet上做微調(diào)的CLIP,竟然能和已經(jīng)在ImageNet上訓(xùn)練好的ResNet 50打成平手,簡(jiǎn)直不可思議。

● CLIP網(wǎng)站:

https://openai.com/research/clip

● CLIP論文:

https://arxiv.org/abs/2103.00020

深度學(xué)習(xí)在CV領(lǐng)域很成功,但是現(xiàn)在大家使用最多的強(qiáng)監(jiān)督學(xué)習(xí)方案總體而言存在以下問(wèn)題:

● CV數(shù)據(jù)集標(biāo)注勞動(dòng)密集,成本高昂

● 模型只能勝任一個(gè)任務(wù),遷移到新任務(wù)上非常困難

● 模型泛化能力較差

2.1 預(yù)訓(xùn)練

OpenAI的這項(xiàng)工作CLIP可以解決上述問(wèn)題,思路看起來(lái)很簡(jiǎn)單,看下圖就知道了,簡(jiǎn)單來(lái)說(shuō)CLIP是使用Text Encoder從文本中提取的語(yǔ)義特征和Image Encoder從圖像中提取的語(yǔ)義特征進(jìn)行匹配訓(xùn)練:

902600ae-7882-11ee-939d-92fbcf53809c.jpg

pre training

2.2 推理

接下來(lái)是Zero-Shot的推理過(guò)程。給定一張圖片,如何利用預(yù)訓(xùn)練好的網(wǎng)絡(luò)去做分類(lèi)呢?這里作者很巧妙地設(shè)置了一道“多項(xiàng)選擇”。具體來(lái)說(shuō),我給網(wǎng)絡(luò)一堆分類(lèi)標(biāo)簽,比如cat, dog, bird,利用文本編碼器得到向量表示。然后分別計(jì)算這些標(biāo)簽與圖片的余弦相似度;最終相似度最高的標(biāo)簽即是預(yù)測(cè)的分類(lèi)結(jié)果。

90592e5c-7882-11ee-939d-92fbcf53809c.jpg

Zero-Shot prediction

從論文中公開(kāi)的效果非常不錯(cuò),CLIP的Zero-Shot遷移能力非常強(qiáng)。在ImageNet各種系列分類(lèi)任務(wù)上,CLIP無(wú)需ImageNet標(biāo)注數(shù)據(jù)訓(xùn)練,通過(guò)Zero-Shot分類(lèi)效果就可以達(dá)到ResNet監(jiān)督訓(xùn)練結(jié)果,并且泛化性和魯棒性更好。

9064cef6-7882-11ee-939d-92fbcf53809c.jpg

CLIP on ImageNet

愛(ài)芯派Pro(AX650N)

搭載愛(ài)芯元智第三代高能效比智能視覺(jué)芯片AX650N。集成了八核Cortex-A55 CPU,10.8TOPs@INT8 NPU,支持8K@30fps的ISP,以及H.264、H.265編解碼的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI輸入,千兆EtherNetUSB、以及HDMI 2.0b輸出,并支持32路1080p@30fps解碼內(nèi)置高算力和超強(qiáng)編解碼能力,滿足行業(yè)對(duì)高性能邊緣智能計(jì)算的需求。通過(guò)內(nèi)置多種深度學(xué)習(xí)算法,實(shí)現(xiàn)視覺(jué)結(jié)構(gòu)化、行為分析、狀態(tài)檢測(cè)等應(yīng)用,高效率支持Transformer模型和視覺(jué)大模型。提供豐富的開(kāi)發(fā)文檔,方便用戶進(jìn)行二次開(kāi)發(fā)。

90764b18-7882-11ee-939d-92fbcf53809c.jpg

愛(ài)芯派Pro(AX650N inside)

上板示例

為了方便大家快速體驗(yàn)CLIP的效果,我們?cè)贕ithub上開(kāi)源了對(duì)應(yīng)的DEMO以及相關(guān)預(yù)編譯好的NPU模型,方便大家快速體驗(yàn)。

● Github鏈接:

https://github.com/AXERA-TECH/CLIP-ONNX-AX650-CPP

提供的DEMO包內(nèi)容說(shuō)明

文件名

描述

main

DEMO執(zhí)行程序

image_encoder.axmodel

圖像編碼模型(AX650N NPU)

image_encoder.onnx

圖像編碼模型(CPU)

images

測(cè)試圖片集

text_encoder.onnx

文本編碼模型

text.txt

文本輸入序列

vocab.txt

文本詞集

feature_matmul.onnx

特征比對(duì)模型

4.1 耗時(shí)統(tǒng)計(jì)

CLIP image encoder的模型,我們采用精度更好的基于ViT-B的Backbone

Backbone

輸入尺寸

參數(shù)量

計(jì)算量

ViT-B/32

1,3,224,224

86M

4.4G MACs

單獨(dú)運(yùn)行的耗時(shí)分析如下:

root@maixbox:~/qtang/CLIP# /opt/bin/ax_run_model -m image_encoder.axmodel -w 3 -r 10
 Run AxModel:
    model: image_encoder.axmodel
    type: NPU3
    vnpu: Disable
  affinity: 0b001
   repeat: 10
   warmup: 3
    batch: 1
 pulsar2 ver: 1.8-patch1 6fa8d395
 engine ver: [Axera version]: libax_engine.so V1.27.0_P3_20230627143603 Jun 27 2023 14:58:22 JK 1.1.0
  tool ver: 1.0.0
  cmm size: 93238580 Bytes
 ------------------------------------------------------
 min =  4.158 ms  max =  4.220 ms  avg =  4.198 ms
 ------------------------------------------------------

從上面可以看出,使用AX650N上的NPU運(yùn)行image encoder,最快可以達(dá)到238 images/秒的特征提取速度,也就是說(shuō)只需短短的4.2秒就能完成前面提及到的1000張照片的特征提取。

4.2 測(cè)試一

使用5張圖片,簡(jiǎn)單來(lái)展示下CLIP具體的效果

9091f778-7882-11ee-939d-92fbcf53809c.png

5張測(cè)試圖片

測(cè)試結(jié)果

909d5528-7882-11ee-939d-92fbcf53809c.jpg

批量測(cè)試

從實(shí)際上板運(yùn)行l(wèi)og可以看出,最后的特征匹配“matmul Inference”耗時(shí)<0.0008s,也就是不到1毫秒就能從1000張圖片中搜索到與文本對(duì)應(yīng)的置信度最高的圖片。

4.3 測(cè)試二

下面是AX650N上CLIP DEMO的Pipeline分別使用CPU后端和NPU后端運(yùn)行image encoder模型的耗時(shí)&CPU負(fù)載對(duì)比:

90bf02c2-7882-11ee-939d-92fbcf53809c.jpg

CPU版本

90c95024-7882-11ee-939d-92fbcf53809c.jpg

NPU版本

Pipeline各模塊統(tǒng)計(jì)

CPU

NPU

耗時(shí)

440 ms

7 ms

CPU負(fù)載

(滿載800%)

397%

90%

內(nèi)存占用

1181 MiB

460 MiB

4.3 測(cè)試三

前面介紹的是Meta開(kāi)源的英文語(yǔ)料的CLIP模型,當(dāng)然也有社區(qū)大佬提供了中文語(yǔ)料微調(diào)模型:

輸入圖片集:

90f35c0c-7882-11ee-939d-92fbcf53809c.png

input images

輸入文本:“金色頭發(fā)的小姐姐”

輸出結(jié)果:

9102caf2-7882-11ee-939d-92fbcf53809c.jpg

CLIP中文示例

交互示例

我們最近還更新了基于愛(ài)芯派Pro的交互式以文搜圖示例,更加直觀的展現(xiàn)其功能。

● Demo安裝步驟可參考

https://github.com/AXERA-TECH/CLIP-ONNX-AX650-CPP/releases

結(jié)束語(yǔ)

隨著Vision Transformer網(wǎng)絡(luò)模型的快速發(fā)展,越來(lái)越多有趣的AI應(yīng)用將逐漸從云端服務(wù)遷移到邊緣側(cè)設(shè)備和端側(cè)設(shè)備。例如基于本文提及到的CLIP模型,在端側(cè)可以實(shí)現(xiàn)以下場(chǎng)景應(yīng)用:

事件抓拍相機(jī),實(shí)時(shí)抓拍監(jiān)控場(chǎng)景下各種突發(fā)事件

事件快速回溯,從海量的視頻數(shù)據(jù)中快速找到某一特點(diǎn)人物和事件

智能NAS,家用私有網(wǎng)盤(pán)不再擔(dān)心找不到照片

同時(shí)為了降低社區(qū)開(kāi)發(fā)者Transformer模型在邊緣側(cè)移植的研究門(mén)檻,業(yè)界優(yōu)秀的開(kāi)源智能硬件公司矽速科技推出的基于AX650N的社區(qū)開(kāi)發(fā)板愛(ài)芯派Pro(MAIX-IV)已經(jīng)正式上架,歡迎關(guān)注。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:愛(ài)芯分享 | 基于AX650N+CLIP的以文搜圖展示

文章出處:【微信號(hào):愛(ài)芯元智AXERA,微信公眾號(hào):愛(ài)芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    奧泰爾AX600-S雙頻2×2WiFi6AP

    選擇AX600-S,開(kāi)啟無(wú)線新時(shí)代奧泰爾AX600-S雙頻WiFi6接入點(diǎn)設(shè)備,技術(shù)創(chuàng)新為驅(qū)動(dòng),用戶需求為導(dǎo)向,為工業(yè)、商業(yè)、城市管理等場(chǎng)景提供高效、安全、易用的無(wú)線覆蓋解決方案。
    發(fā)表于 05-23 10:44 ?0次下載

    VS6621S80&40 IEEE 802.11 a/b/g/n/AC/ax 1T1R+藍(lán)牙5.4Combo模塊手冊(cè)

    可替代臺(tái)灣正基 臺(tái)灣瑞昱 和愛(ài)科微WiFi模塊VS6621S80&40IEEE802.11a/b/g/n/ac/ax1T1R+Bluetooth5.4ComboModule
    發(fā)表于 05-12 17:34 ?0次下載

    AI SoC # 愛(ài)芯元智AX650N詳細(xì)介紹:原生支持Transformer架構(gòu)模型 適用部署DeepSeek R1

    AX650N是愛(ài)芯元智(AXERA)推出的一款高性能邊緣側(cè)AI芯片,專(zhuān)注于智能視覺(jué)感知與計(jì)算,廣泛應(yīng)用于智慧城市、智能制造、機(jī)器人等領(lǐng)域。以下是其核心特性及應(yīng)用場(chǎng)景的詳細(xì)分析: *附件:AX650N
    的頭像 發(fā)表于 03-04 11:15 ?3259次閱讀
    AI SoC # 愛(ài)芯元智<b class='flag-5'>AX650N</b>詳細(xì)介紹:原生支持Transformer架構(gòu)模型 適用部署DeepSeek R1

    無(wú)法在DLP650NIR上面顯示8位灰度嗎?

    DLP7000、DLP9500都有關(guān)于8位灰度數(shù)據(jù)的描述,但是DLP650NIR只有2進(jìn)制數(shù)據(jù)的描述,這是不是意味著無(wú)法在DLP650NIR上面顯示8位灰度
    發(fā)表于 02-28 06:12

    揭秘Cu Clip封裝:如何助力半導(dǎo)體芯片飛躍

    在半導(dǎo)體行業(yè)中,封裝技術(shù)對(duì)于功率芯片的性能發(fā)揮起著至關(guān)重要的作用。隨著電子技術(shù)的飛速發(fā)展,特別是在大功率場(chǎng)合下,傳統(tǒng)的封裝技術(shù)已經(jīng)難以滿足日益增長(zhǎng)的性能需求。因此,Cu Clip封裝技術(shù)作為一種新興
    的頭像 發(fā)表于 02-19 11:32 ?1396次閱讀
    揭秘Cu <b class='flag-5'>Clip</b>封裝:如何助力半導(dǎo)體芯片飛躍

    重磅發(fā)布 | 矽速 M4N Dock 支持 DeepSeek R1,端側(cè)大模型部署新標(biāo)桿!

    01性能炸裂速度領(lǐng)先RK358815%,性能直逼OrinNano!久等了!矽速M(fèi)4NDock(愛(ài)芯派Pro,AX650N)已支持部署DeepSeekR1大模型,實(shí)測(cè)運(yùn)行速度超越RK3588達(dá)15
    的頭像 發(fā)表于 02-18 15:35 ?618次閱讀
    重磅發(fā)布 | 矽速 M4<b class='flag-5'>N</b> Dock 支持 DeepSeek R1,端側(cè)大模型部署新標(biāo)桿!

    海康威視存儲(chǔ)系列:跨模態(tài)檢索,安防新境界

    海康威視推出的存儲(chǔ)系列產(chǎn)品,引領(lǐng)了安防領(lǐng)域的信息檢索新革命。該產(chǎn)品憑借多模態(tài)大模型技術(shù),實(shí)現(xiàn)了自然語(yǔ)言與視頻圖像的跨模態(tài)信息檢索,將安防錄像回溯帶入了全新的智能時(shí)代。 用戶只需輸入一句話或一個(gè)
    的頭像 發(fā)表于 02-18 14:08 ?544次閱讀

    海康威視發(fā)布多模態(tài)大模型存儲(chǔ)系列產(chǎn)品

    多模態(tài)大模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,海康威視將大參數(shù)量、大樣本量的圖文多模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布多模態(tài)大模型存儲(chǔ)系列產(chǎn)品——NVR、
    的頭像 發(fā)表于 02-18 10:33 ?494次閱讀

    部署DeepSeek R1于AX650NAX630C平臺(tái)

    背景 春節(jié)前,國(guó)產(chǎn)大模型 DeepSeek 橫空出世,迅速成為AI領(lǐng)域的焦點(diǎn)。作為端側(cè)AI能效比優(yōu)異的 AX650NAX630C 芯片平臺(tái)早已在節(jié)前完成 DeepSeek R1 蒸餾版本 1.5B
    的頭像 發(fā)表于 02-09 09:32 ?879次閱讀
    部署DeepSeek R1于<b class='flag-5'>AX650N</b>與<b class='flag-5'>AX</b>630C平臺(tái)

    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp; 創(chuàng)意固定套件CLIP-A/CLIP-B

    本月的第三波新品上線了3款全新產(chǎn)品,涵蓋了多種需求和應(yīng)用領(lǐng)域。從激發(fā)興趣和創(chuàng)意的PuzzleUnit,到多功能創(chuàng)意套件CLIP-A&CLIP-B,每一款都為不同場(chǎng)景提供了創(chuàng)新解決方案。快來(lái)
    的頭像 發(fā)表于 11-16 01:07 ?318次閱讀
    新品 | 可拼接燈板矩陣 Puzzle Unit &amp;amp; 創(chuàng)意固定套件<b class='flag-5'>CLIP</b>-A/<b class='flag-5'>CLIP</b>-B

    請(qǐng)問(wèn)TPA3244,RESET FAULT CLIP_OTW怎么跟MCU連接?

    TPA3244,RESET FAULT CLIP_OTW,怎么跟MCU連接,還有我直接上電,沒(méi)有MUTE控制會(huì)不會(huì)有PO PO 聲
    發(fā)表于 10-14 06:38

    TPA3220功放的OTW_CLIP管腳會(huì)異常拉低,為什么?

    當(dāng)功放的功率達(dá)到120W時(shí),TPA3220功放的OTW_CLIP管腳會(huì)異常拉低。 正常情況下FAULT和OTW_CLIP管腳均為高電平,如圖為FAULT和OTW_CLIP管腳的真值表
    發(fā)表于 09-29 09:04

    TAS5630電路PBTL接法,CLIP燈無(wú)法滅是怎么回事?

    TAS5630電路PBTL接法,正在測(cè)試時(shí)CLIP信號(hào)燈亮(CLIP低電平),輸出為0,無(wú)論重新開(kāi)機(jī)或人工復(fù)位,均不能使得CLIP燈滅,請(qǐng)大俠教我。謝謝。
    發(fā)表于 09-03 07:58

    基于AX650N芯片部署MiniCPM-V 2.0高效端側(cè)多模態(tài)大模型

    2.8B參數(shù)。MiniCPM-V 2.0具有領(lǐng)先的光學(xué)字符識(shí)別(OCR)和多模態(tài)理解能力。該模型在綜合性O(shè)CR能力評(píng)測(cè)基準(zhǔn)OCRBench上達(dá)到開(kāi)源社區(qū)的最佳水平,甚至在場(chǎng)景文字理解方面實(shí)現(xiàn)接近Gemini Pro的性能。簡(jiǎn)單來(lái)說(shuō),就是能夠?qū)崿F(xiàn)更好地理解圖片中內(nèi)容,實(shí)現(xiàn)精準(zhǔn)的“
    的頭像 發(fā)表于 07-15 09:34 ?1367次閱讀
    基于<b class='flag-5'>AX650N</b>芯片部署MiniCPM-V 2.0高效端側(cè)多模態(tài)大模型

    基于AX650N/AX630C部署端側(cè)大語(yǔ)言模型Qwen2

    本文將分享如何將最新的端側(cè)大語(yǔ)言模型部署到超高性?xún)r(jià)比SoC上,向業(yè)界對(duì)端側(cè)大模型部署的開(kāi)發(fā)者提供一種新的思路。
    的頭像 發(fā)表于 07-06 17:43 ?4387次閱讀
    基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C部署端側(cè)大語(yǔ)言模型Qwen2