女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

任意模型都能蒸餾!華為諾亞提出異構(gòu)模型的知識(shí)蒸餾方法

CVer ? 來(lái)源:CVer ? 2023-11-01 16:18 ? 次閱讀

自知識(shí)蒸餾方法在2014年被首次提出以來(lái),其開(kāi)始廣泛被應(yīng)用于模型壓縮領(lǐng)域。在更強(qiáng)大教師模型輔助監(jiān)督信息的幫助下,學(xué)生模型往往能夠?qū)崿F(xiàn)比直接訓(xùn)練更高的精度。然而,現(xiàn)有的知識(shí)蒸餾相關(guān)研究只考慮了同架構(gòu)模型的蒸餾方法,而忽略了教師模型與學(xué)生模型異構(gòu)的情形。例如,最先進(jìn)的MLP模型在ImageNet上僅能達(dá)到83%的精度,無(wú)法獲取精度更高的同架構(gòu)教師模型以使用知識(shí)蒸餾方法進(jìn)一步提高M(jìn)LP模型的精度。因此,對(duì)異構(gòu)模型知識(shí)蒸餾的研究具有實(shí)際應(yīng)用意義。

本文的研究者們分析了針對(duì)異構(gòu)模型(CNN,ViT,MLP)特征的差異性,指出特征中模型架構(gòu)相關(guān)的信息會(huì)阻礙知識(shí)蒸餾的過(guò)程。基于此觀察,研究者們提出了名為OFAKD異構(gòu)模型知識(shí)蒸餾方法:該方法將特征映射到架構(gòu)無(wú)關(guān)的統(tǒng)一空間進(jìn)行異構(gòu)模型蒸餾,并使用一種能夠自適應(yīng)增強(qiáng)目標(biāo)類別信息的損失函數(shù)。在CIFAR-100和ImageNet數(shù)據(jù)集上,該方法實(shí)現(xiàn)了對(duì)現(xiàn)有同架構(gòu)知識(shí)蒸餾方法的超越。

異構(gòu)模型間的特征差異

018b8992-785d-11ee-939d-92fbcf53809c.jpg

圖1 異構(gòu)模型學(xué)習(xí)到的特征對(duì)比

相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進(jìn)行蒸餾的方法通常能取得更好的性能。然而在異構(gòu)模型的情況下,由于不同架構(gòu)模型對(duì)特征的不同學(xué)習(xí)偏好,它們的中間層特征往往具有較大的差異,直接將針對(duì)同架構(gòu)模型涉及的蒸餾方法遷移到異構(gòu)模型會(huì)導(dǎo)致性能下降。

通用的異構(gòu)模型蒸餾方法

019747dc-785d-11ee-939d-92fbcf53809c.jpg

圖2 異構(gòu)模型的知識(shí)蒸餾方法

為了在異構(gòu)模型蒸餾過(guò)程中利用中間層特征,需要排除特征中模型架構(gòu)相關(guān)信息的干擾,僅保留任務(wù)相關(guān)信息。基于此,研究者們提出通過(guò)將學(xué)生模型的中間層特征映射到logits空間,實(shí)現(xiàn)對(duì)模型架構(gòu)相關(guān)信息的過(guò)濾。此外通過(guò)在原始基于KL散度的蒸餾損失函數(shù)中引入一項(xiàng)額外的調(diào)節(jié)系數(shù),修正后的損失函數(shù)能夠?qū)崿F(xiàn)對(duì)目標(biāo)類別信息的自適應(yīng)增強(qiáng),進(jìn)一步減緩異構(gòu)模型蒸餾時(shí)無(wú)關(guān)信息的干擾。

01a4a6ac-785d-11ee-939d-92fbcf53809c.jpg

圖3 原始蒸餾損失與改進(jìn)后蒸餾損失的對(duì)比

實(shí)驗(yàn)結(jié)果

01aeca88-785d-11ee-939d-92fbcf53809c.jpg

圖4 在ImageNet上的異構(gòu)模型蒸餾結(jié)果

上表展示了在ImageNet上的異構(gòu)蒸餾結(jié)果。在所有架構(gòu)的六種可能異構(gòu)組合中,本文OFAKD方法都得到了超越現(xiàn)有方法結(jié)果。

01c946ec-785d-11ee-939d-92fbcf53809c.jpg

圖5 不同值對(duì)結(jié)果的影響

上表在ImageNet上比較了不同的值設(shè)置對(duì)結(jié)果的影響。可以看出,通過(guò)選取合適的值設(shè)置,改進(jìn)后的蒸餾損失函數(shù)能得到超越原始蒸餾損失函數(shù)的結(jié)果。

01d7e062-785d-11ee-939d-92fbcf53809c.png

圖6 在ImageNet上的同構(gòu)模型蒸餾結(jié)果

本文在ImageNet上與傳統(tǒng)同構(gòu)模型蒸餾方法進(jìn)行了對(duì)比。在常見(jiàn)的ResNet34和ResNet18同構(gòu)教師學(xué)生模型組合上,OFAKD也具有與現(xiàn)有SOTA方法相當(dāng)?shù)谋憩F(xiàn)。

01e2a902-785d-11ee-939d-92fbcf53809c.jpg

圖7 MLP學(xué)生模型的蒸餾結(jié)果

最后,本文比較了文首提到的MLP作為學(xué)生模型時(shí)的蒸餾結(jié)果。通過(guò)選用ViT架構(gòu)的BEiT v2-base作為教師模型,僅中等尺寸的CycleMLP-B3就刷新了MLP模型在ImageNet上的最佳結(jié)果。

結(jié)論

本文研究了異構(gòu)模型之間的知識(shí)蒸餾方法,通過(guò)將學(xué)生模型中間層特征映射到logits空間來(lái)擬合教師模型最終輸出,并使用在原始知識(shí)蒸餾損失函數(shù)基礎(chǔ)上改進(jìn)而來(lái)的自適應(yīng)目標(biāo)信息增強(qiáng)損失,提出的OFAKD方法在多種數(shù)據(jù)集和教師學(xué)生模型組合上實(shí)現(xiàn)了對(duì)現(xiàn)有方法的超越,擴(kuò)展了知識(shí)蒸餾的應(yīng)用范圍。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3486

    瀏覽量

    49990
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    527

    瀏覽量

    25852

原文標(biāo)題:NeurIPS 2023 | 任意模型都能蒸餾!華為諾亞提出異構(gòu)模型的知識(shí)蒸餾方法

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    異構(gòu)模型的配電網(wǎng)信息交互

    為消除模型異構(gòu)、跟進(jìn)系統(tǒng)更新和提高信息交互能力,實(shí)現(xiàn)智能配電網(wǎng)異構(gòu)系統(tǒng)間的信息集成,從模型提出異構(gòu)
    發(fā)表于 01-23 10:48 ?4次下載
    <b class='flag-5'>異構(gòu)模型</b>的配電網(wǎng)信息交互

    微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

    近日,來(lái)自微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來(lái)最小化教師模型與學(xué)生模型距離的知識(shí)
    的頭像 發(fā)表于 11-24 09:48 ?1849次閱讀

    深度學(xué)習(xí):知識(shí)蒸餾的全過(guò)程

    知識(shí)蒸餾的核心思想是通過(guò)遷移知識(shí),從而通過(guò)訓(xùn)練好的大模型得到更加適合推理的小模型。本文作者介紹了知識(shí)
    的頭像 發(fā)表于 01-07 14:36 ?6422次閱讀

    針對(duì)遙感圖像場(chǎng)景分類的多粒度特征蒸餾方法

    嵌入式設(shè)備上的應(yīng)用。提出一種針對(duì)遙感圖像場(chǎng)景分類的多粒度特征蒸餾方法,將深度網(wǎng)絡(luò)不同階段的特征與最終的類別概率同時(shí)作為淺層模型的監(jiān)督信號(hào),使得淺層
    發(fā)表于 03-11 17:18 ?20次下載
    針對(duì)遙感圖像場(chǎng)景分類的多粒度特征<b class='flag-5'>蒸餾</b><b class='flag-5'>方法</b>

    基于知識(shí)蒸餾的惡意代碼家族檢測(cè)方法研究綜述

    近年來(lái),惡意代碼變種層出不窮,惡意軟件更具隱蔽性和持久性,亟需快速有效的檢測(cè)方法來(lái)識(shí)別惡意樣本。針對(duì)現(xiàn)文中提出了一種基于知識(shí)蒸餾的惡意代碼家族檢測(cè)
    發(fā)表于 04-20 14:49 ?9次下載
    基于<b class='flag-5'>知識(shí)</b><b class='flag-5'>蒸餾</b>的惡意代碼家族檢測(cè)<b class='flag-5'>方法</b>研究綜述

    若干蒸餾方法之間的細(xì)節(jié)以及差異

    以往的知識(shí)蒸餾雖然可以有效的壓縮模型尺寸,但很難將teacher模型的能力蒸餾到一個(gè)更小詞表的student
    的頭像 發(fā)表于 05-12 11:39 ?1708次閱讀

    關(guān)于快速知識(shí)蒸餾的視覺(jué)框架

    知識(shí)蒸餾框架包含了一個(gè)預(yù)訓(xùn)練好的 teacher 模型蒸餾過(guò)程權(quán)重固定),和一個(gè)待學(xué)習(xí)的 student 模型, teacher 用來(lái)產(chǎn)生
    的頭像 發(fā)表于 08-31 10:13 ?1095次閱讀

    南開(kāi)/南理工/曠視提出CTKD:動(dòng)態(tài)溫度超參蒸餾方法

    一直保持靜態(tài)固定的溫度超參對(duì)學(xué)生模型來(lái)說(shuō)不是最優(yōu)的。基于課程學(xué)習(xí)的思想,人類在學(xué)習(xí)過(guò)程中都是由簡(jiǎn)單到困難的學(xué)習(xí)知識(shí)。那么在蒸餾的過(guò)程中,我們也會(huì)希望模型一開(kāi)始
    的頭像 發(fā)表于 01-04 14:49 ?1106次閱讀

    如何度量知識(shí)蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞?

    知識(shí)蒸餾(knowledge distillation,KD)是一種通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,它使用大的teacher模型來(lái) “教” student模型
    的頭像 發(fā)表于 02-25 15:41 ?1203次閱讀

    蒸餾也能Step-by-Step:新方法讓小模型也能媲美2000倍體量大模型

    為了解決大型模型的這個(gè)問(wèn)題,部署者往往采用小一些的特定模型來(lái)替代。這些小一點(diǎn)的模型用常見(jiàn)范式 —— 微調(diào)或是蒸餾來(lái)進(jìn)行訓(xùn)練。微調(diào)使用下游的人類注釋數(shù)據(jù)升級(jí)一個(gè)預(yù)訓(xùn)練過(guò)的小
    的頭像 發(fā)表于 05-15 09:35 ?845次閱讀
    <b class='flag-5'>蒸餾</b>也能Step-by-Step:新<b class='flag-5'>方法</b>讓小<b class='flag-5'>模型</b>也能媲美2000倍體量大<b class='flag-5'>模型</b>

    如何將ChatGPT的能力蒸餾到另一個(gè)大模型

    Language Model》 提出了一個(gè)將知識(shí)從一個(gè)復(fù)雜的、閉源的大型語(yǔ)言模型(LLM)轉(zhuǎn)移到一個(gè)緊湊的、開(kāi)源的LLM的做法,其中加入了數(shù)據(jù)反饋的
    的頭像 發(fā)表于 06-12 15:06 ?1827次閱讀
    如何將ChatGPT的能力<b class='flag-5'>蒸餾</b>到另一個(gè)大<b class='flag-5'>模型</b>

    TPAMI 2023 | 用于視覺(jué)識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾

    representation learning [1] 的擴(kuò)展版本,論文講解鏈接為: https://zhuanlan.zhihu.com/p/574701719 摘要: 無(wú)需教師的在線知識(shí)蒸餾聯(lián)合地訓(xùn)練多個(gè)學(xué)生模型并且相互地
    的頭像 發(fā)表于 09-19 10:00 ?1174次閱讀
    TPAMI 2023 | 用于視覺(jué)識(shí)別的相互對(duì)比學(xué)習(xí)在線<b class='flag-5'>知識(shí)</b><b class='flag-5'>蒸餾</b>

    大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法

    的機(jī)制,應(yīng)用于中間層蒸餾時(shí)存在問(wèn)題,其無(wú)法處理不重疊的分布且無(wú)法感知底層流形的幾何結(jié)構(gòu)。 為了解決這些問(wèn)題,大連理工大學(xué)的研究人員提出了一種基于 Wasserstein 距離(WD)的知識(shí)蒸餾
    的頭像 發(fā)表于 01-21 09:45 ?547次閱讀

    摩爾線程宣布成功部署DeepSeek蒸餾模型推理服務(wù)

    近日,摩爾線程智能科技(北京)有限責(zé)任公司在其官方渠道發(fā)布了一則重要消息,宣布公司已經(jīng)成功實(shí)現(xiàn)了對(duì)DeepSeek蒸餾模型推理服務(wù)的部署。這一技術(shù)突破,標(biāo)志著摩爾線程在人工智能領(lǐng)域邁出了堅(jiān)實(shí)的一步
    的頭像 發(fā)表于 02-06 13:49 ?716次閱讀

    IBM在watsonx.ai平臺(tái)推出DeepSeek R1蒸餾模型

    ,進(jìn)一步增強(qiáng)企業(yè)在安全、治理以及規(guī)模化部署方面的能力。 DeepSeek R1是IBM在AI領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新,它采用了蒸餾模型技術(shù),能夠在保持模型性能的同時(shí),顯著減小模型體積,提高運(yùn)
    的頭像 發(fā)表于 02-14 10:21 ?436次閱讀