女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

加速ViT模型新思路!Meta推出Token Merging

OpenCV學堂 ? 來源:新智元 ? 作者:新智元 ? 2022-12-06 15:48 ? 次閱讀

【導讀】由Meta AI的研究人員推出Token Merging(ToMe),無需訓練即可加速 ViT 模型。更重要的是,這個模型不需對token進行剪枝。

視覺變換器(ViT)在兩年前進入大眾視野,并成為計算機視覺研究的核心組成部分。 它成功將一個在自然語言處理領域的Transformer模型遷移到計算機視覺領域。從那時起,計算機視覺領域的進步已經加速。

盡管在成本與性能方面被超越,Vanilla ViT仍有許多優點。

它們是由簡單的矩陣乘法組成的,這使得它們的速度比它們的原始運算量所顯示的要快。

此外,它們支持強大的自監督預訓練技術,如MAE(掩碼自動編碼器),可以產生最先進的結果,同時可以進行快速訓練。

而且由于它們不對數據進行假設,它們可以幾乎不加改變地應用在圖片、音頻、文本等諸多模式中。

當然,理想很豐滿,現實很骨感。ViT模型的規模大,有較大延時。在資源有限的設備上,運行這個復雜模型會產生很大問題。

Token剪枝:變好了,但沒完全好 針對運算慢的問題,研究人員給出了多個解決方案。其中一種常見的加速視覺 Transformer模型的方法是對進行token剪枝。 在運行時修剪標記,通過修剪不太重要的token產生高效的Transformer。如DynamicViT分層修剪冗余token,從而在分類任務中實現FLOPs減少。

然而,token剪枝有幾個問題,其中最主要的,是由于修剪token會產生信息損失,因此,人們對ViT模型token的剪枝數量是有限的,為了減少信息損失,只能對不重要的token進行修剪。

而且,為了使修剪過的token有效,人們需要再次訓練模型。這就造成額外的資源消耗。

更重要的是,token剪枝是動態的過程,需要根據不同的圖像或句子確定token剪枝的不同數量。雖然這有利于提高準確性,但卻不夠實用實用性,因為這種情況下,數據不能再進行批處理。

為了解決這個問題,人們需要在剪枝過程中添加掩碼,而這會進一步影響效率的提升。

簡單來說,token剪枝確實讓ViT跑得更快,但這是在信息損耗的代價上實現的。

TokenMerging:換個想法

怎樣才能使ViT的速度類似于剪枝,但保持比剪枝更高的準確度呢?Meta AI研究團隊給出了新的解題思路:Token Merging(ToMe)。

70f4dd92-74ad-11ed-8abf-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2210.09461.pdf

Token Merging選擇將token結合,而非進行剪枝。由于其定制的匹配算法,它和剪枝一樣快,同時更準確。另外,它的工作不需要任何額外的訓練,所以你可以在巨大的模型上使用它來加快它們的速度,而不會犧牲很多準確性。

Meta的目標是在現有的ViT中插入一個Token Merging的模塊,通過合并冗余的token,在不需要額外訓練的前提下提高訓練和推理的吞吐量。

基本思路是:在Transformer模型中,通過合并,使每層減少r個token。假設一個Transformer模型有L層,那么通過合并就可以減少rL個token。變量r的大小決定了速度和精度的關系,因為更少的標記意味著更低的準確度但更高的吞吐量。

值得注意的是,在Token Merging中,無論圖像的內容如何,都會減少rL標記。這完美解決了token剪枝中無法進行批處理的問題。

通過ToMe,類似的token批在每個Transformer塊中被合并:例如,狗的皮毛被合并成一個token。

7110d9f2-74ad-11ed-8abf-dac502259ad0.png

Token Merging被插入每個attention塊和每個Transformer塊。這也與token剪枝的工作流程形成對比。后者傾向于將剪枝步驟放在每個Transformer塊的開頭。

7137d688-74ad-11ed-8abf-dac502259ad0.png

通過Token Merging,需要被合并的token的信息可以得到傳播,ViT也能夠借助attention塊中的特征來決定需要合并哪些token。

具體做法

合并的第一步是確定相似的token。在Transformer中的QKV(query, key, value)已被提取的條件下,通過消融實驗,研究團隊發現使用key可以最好衡量token之間的相似度(下圖紫色部分)。

7149485a-74ad-11ed-8abf-dac502259ad0.png

因為key已經總結了每個token中包含的信息,以便用于Attention中的dot-product來衡量token間的相似度。

除了研究哪個指標更好衡量token相似度外,還需要知道什么距離衡量相似度。通過實驗研究團隊發現,使用使用余弦距離來衡量toke之間的相似度可以獲得最好的精度和速度的關系。

71602b60-74ad-11ed-8abf-dac502259ad0.png

確定了token的相似性,接下來需要一個快速的方法來確定哪些token需要匹配,以減少總數的r。

Meta團隊沒有使用kmeans聚類算法或圖分割算法,而是使用匹配算法,因為后者不僅可以精準匹配每一層token的數量,還能快速執行上千次匹配。這些都是迭代聚類算法無法完成的。

因此,Meta團隊提出了一個更有效的解決方案。

設計目標如下。1.)避免任何無法并行化的迭代,2.)希望合并的變化是漸進的,因為聚類對多少個標記可以合并到一個組中沒有限制(這可能會對網絡產生不利影響),而匹配則使大多數標記沒有被合并。

7192354c-74ad-11ed-8abf-dac502259ad0.png

將所有token分為相同大小的2個集合A與B。

把從集合A中的每個token到B中與其最相似的token畫一條邊。

只留下最相似的r條邊, 其余刪掉。

融合仍然相連的邊(特征取均值)。

把這兩個集合拼在一起, 得到最終的合并結果。

通過這項獨特的技術,可以提高ViT模型的吞吐量和實際訓練速度。使用Token Merging可以將訓練速度提高一倍。它可以用于圖像、視頻和音頻任務,并且仍然可以達到最先進的準確性。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3488

    瀏覽量

    50006
  • Meta
    +關注

    關注

    0

    文章

    300

    瀏覽量

    11748
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14021

原文標題:加速ViT模型新思路!Meta推出Token Merging,不靠剪枝靠合并

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發表于 03-05 08:07

    Meta組建四大專研小組,深入探索DeepSeek模型

    。其中,兩個小組致力于解析幻方量化如何降低DeepSeek模型的訓練和運行成本,以期從中汲取經驗,優化Meta自身的成本結構。第三個研究小組則聚焦于幻方量化訓練DeepSeek模型所使用的數據,試圖揭示其數據選擇的獨特之處,為
    的頭像 發表于 02-05 14:02 ?407次閱讀

    廣和通推出AI玩具大模型解決方案

    廣和通推出AI玩具大模型解決方案,該方案深度融合豆包等AI大模型、內置廣和通Cat.1模組,助力智能玩具實現AI化升級。該解決方案無需外接MCU,即可實現音視頻及圖像傳輸、語音識別、自然語言處理
    的頭像 發表于 01-21 10:27 ?675次閱讀

    Meta發布新AI模型Meta Motivo,旨在提升元宇宙體驗

    Meta公司近日宣布,將推出一款名為Meta Motivo的全新人工智能模型。該模型具備控制類似人類的數字代理動作的能力,有望為元宇宙的用戶
    的頭像 發表于 12-16 10:34 ?867次閱讀

    Meta推出Metamate AI工具,進軍企業市場

    近日,社交媒體巨頭Meta正積極進軍企業市場,推出了一款內部研發的AI工具——Metamate。這款AI軟件以提高企業生產力為目標,旨在為企業提供更高效、智能的解決方案。 Metamate
    的頭像 發表于 12-09 14:57 ?845次閱讀

    Meta推出Llama 3.3 70B,AI大模型競爭白熱化

    在今年的AI領域,Meta也不甘落后,推出了其壓軸之作——Llama 3.3 70B大模型。與此同時,馬斯克的xAI也宣布其Grok模型從今天起全球免費開放(但存在一定的使用限制)。
    的頭像 發表于 12-09 14:50 ?747次閱讀

    Meta發布Llama 3.2量化版模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領域帶來了新進展。10月24日,Meta正式推出了這兩個模型的量化版
    的頭像 發表于 10-29 11:05 ?773次閱讀

    Meta推出可自我評估AI模型

    Meta近期宣布了一項重要的人工智能進展,即將發布一系列全新的人工智能模型。其中,一款能夠自我評估的模型尤為引人注目,這一創新有望顯著減少人工智能開發過程中的人類參與。
    的頭像 發表于 10-22 17:07 ?614次閱讀

    聯想與Meta合作推出AI Now個人AI智能體

    聯想集團近日在美國西雅圖舉辦了年度Tech World大會,會上聯想CEO楊元慶與Meta創始人兼CEO馬克?扎克伯格共同宣布了一項重要合作。雙方基于Meta的Llama大模型推出
    的頭像 發表于 10-17 16:58 ?861次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態模型,現已在Amazon
    的頭像 發表于 10-11 18:08 ?697次閱讀

    亞馬遜云科技正式上線Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模態模型,現已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的頭像 發表于 10-11 09:20 ?806次閱讀

    Meta發布多模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了多模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著
    的頭像 發表于 09-27 11:44 ?630次閱讀

    扎克伯格:Meta在AI方面的最新想法和動向

    在2023年8月1日,眾多媒體紛紛報道,據稱在Meta于本周三舉行的財務報表講解電話會議上,CEO馬克·扎克伯格以及其他高層領導分享了關于Meta在人工智能領域的最新創新思路及行動方向。
    的頭像 發表于 08-01 16:53 ?756次閱讀

    Meta發布全新開源大模型Llama 3.1

    科技巨頭Meta近期震撼發布了其最新的開源人工智能(AI)模型——Llama 3.1,這一舉措標志著Meta在AI領域的又一重大突破。Meta創始人馬克·扎克伯格親自站臺,盛贊Llam
    的頭像 發表于 07-24 18:25 ?1724次閱讀

    Meta不會在歐盟提供新的多模態AI模型

    科技巨頭Meta近日宣布了一項重要決策,其即將推出的創新多模態Llama模型將不會在歐盟地區發布。這一決定背后,是Meta對歐洲復雜且不可預測的監管環境的深刻考量,也為
    的頭像 發表于 07-19 16:04 ?782次閱讀