女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果?

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀

wKgaomVHiHWAIPX3AAELXgVPVYM448.png

論文鏈接:https://arxiv.org/abs/2305.17476

代碼鏈接:

https://github.com/ML-GSAI/Understanding-GDA

wKgaomVHiHWAF1oQAAAl6LOgh3c275.png

概述

生成式數(shù)據(jù)擴(kuò)增通過條件生成模型生成新樣本來擴(kuò)展數(shù)據(jù)集,從而提高各種學(xué)習(xí)任務(wù)的分類性能。然而,很少有人從理論上研究生成數(shù)據(jù)增強(qiáng)的效果。為了填補(bǔ)這一空白,我們在這種非獨(dú)立同分布環(huán)境下構(gòu)建了基于穩(wěn)定性的通用泛化誤差界。基于通用的泛化界,我們進(jìn)一步了探究了高斯混合模型和生成對抗網(wǎng)絡(luò)的學(xué)習(xí)情況。

在這兩種情況下,我們證明了,雖然生成式數(shù)據(jù)增強(qiáng)并不能享受更快的學(xué)習(xí)率,但當(dāng)訓(xùn)練集較小時,它可以在一個常數(shù)的水平上提高學(xué)習(xí)保證,這在發(fā)生過擬合時是非常重要的。最后,高斯混合模型的仿真結(jié)果和生成式對抗網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果都支持我們的理論結(jié)論。

wKgaomVHiHaAWhR6AAAuhh9-KLM150.png

主要的理論結(jié)果

2.1 符號與定義

作為數(shù)據(jù)輸入空間, 作為標(biāo)簽空間。定義 上的真實(shí)分布。給定集合 ,我們定義 為去掉第 個數(shù)據(jù)后剩下的集合, 為把第 個數(shù)據(jù)換成 后的集合。我們用 表示 total variation distance。

我們讓 為所有從 的所有可測函數(shù), 為學(xué)習(xí)算法從數(shù)據(jù)集 中學(xué)到的映射。對于一個學(xué)到的映射 和損失函數(shù)真實(shí)誤差 被定義相應(yīng)的經(jīng)驗(yàn)的誤差 被定義

我們文章理論推導(dǎo)采用的是穩(wěn)定性框架,我們稱算法 相對于損失函數(shù) 是一致 穩(wěn)定的,如果

wKgaomVHiHaAFnd0AAAz9Dvxuko037.png

2.2 生成式數(shù)據(jù)增強(qiáng)

給定帶有 個 i.i.d. 樣本的 數(shù)據(jù)集,我們能訓(xùn)練一個條件生成模型 ,并將學(xué)到的分布定義為 。基于訓(xùn)練得到的條件生成模型,我們能生成一個新的具有 個 i.i.d. 樣本的數(shù)據(jù)集 。我們記增廣后的數(shù)據(jù)集 大小為 。我們可以在增廣后的數(shù)據(jù)集上學(xué)到映射 。為了理解生成式數(shù)據(jù)增強(qiáng),我們關(guān)心泛化誤差 。據(jù)我們所知,這是第一個理解生成式數(shù)據(jù)增強(qiáng)泛化誤差的工作。

2.3 一般情況

我們可以對于任意的生成器和一致 穩(wěn)定的分類器,推得如下的泛化誤差:wKgaomVHiHaAHCBWAAKzlDp-QcM311.png▲ general一般來說,我們比較關(guān)心泛化誤差界關(guān)于樣本數(shù) 的收斂率。將 看成超參數(shù),并將后面兩項記為 generalization error w.r.t. mixed distribution,我們可以定義如下的“最有效的增強(qiáng)數(shù)量”:

wKgaomVHiHaAWSEFAAA431R2LDc421.png

在這個設(shè)置下,并和沒有數(shù)據(jù)增強(qiáng)的情況進(jìn)行對比(),我們可以得到如下的充分條件,它刻畫了生成式數(shù)據(jù)增強(qiáng)何時(不)能夠促進(jìn)下游分類任務(wù),這和生成模型學(xué)習(xí)分的能力息息相關(guān):

wKgaomVHiHaADuBdAAGRk94Vijc927.png

▲ corollary

2.4 高斯混合模型為了驗(yàn)證我們理論的正確性,我們先考慮了一個簡單的高斯混合模型的 setting。 混合高斯分布。我們考慮二分類任務(wù) 。我們假設(shè)真實(shí)分布滿足 and 。我們假設(shè) 的分布是已知的。 線性分類器。我們考慮一個被 參數(shù)化的分類器,預(yù)測函數(shù)為 。給定訓(xùn)練集, 通過最小化負(fù)對數(shù)似然損失函數(shù)得到,即最小化

wKgaomVHiHaAQ8KHAAAsqSi2TVI092.png

學(xué)習(xí)算法將會推得 ,which satisfies 條件生成模型。我們考慮參數(shù)為 的條件生成模型,其中 以及 。給定訓(xùn)練集,讓 為第 類的樣本量,條件生成模型學(xué)到

wKgaomVHiHaATVbZAAA1KPe_-gQ666.png

它們是 的無偏估計。我們可以從這個條件模型中進(jìn)行采樣,即 ,其中 我們在高斯混合模型的場景下具體計算 Theorem 3.1 中的各個項,可以推得

wKgaomVHiHeANFfaAAKrroYCtMc232.png

▲ GMM
  1. 當(dāng)數(shù)據(jù)量 足夠時,即使我們采用“最有效的增強(qiáng)數(shù)量”,生成式數(shù)據(jù)增強(qiáng)也難以提高下游任務(wù)的分類性能。
  2. 當(dāng)數(shù)據(jù)量 較小的,此時主導(dǎo)泛化誤差的是維度等其他項,此時進(jìn)行生成式數(shù)據(jù)增強(qiáng)可以常數(shù)級降低泛化誤差,這意味著在過擬合的場景下,生成式數(shù)據(jù)增強(qiáng)是很有必要的。

2.5 生成對抗網(wǎng)絡(luò)

我們也考慮了深度學(xué)習(xí)的情況。我們假設(shè)生成模型為 MLP 生成對抗網(wǎng)絡(luò),分類器為 層 MLP 或者 CNN。損失函數(shù)為二元交叉熵,優(yōu)化算法為 SGD。我們假設(shè)損失函數(shù)平滑,并且第 層的神經(jīng)網(wǎng)絡(luò)參數(shù)可以被 控制。我們可以推得如下的結(jié)論:

wKgaomVHiHeAWBT7AAMhGLp_Mz4284.png

▲ GAN
  1. 當(dāng)數(shù)據(jù)量 足夠時,生成式數(shù)據(jù)增強(qiáng)也難以提高下游任務(wù)的分類性能,甚至?xí)夯?/span>
  2. 當(dāng)數(shù)據(jù)量 較小的,此時主導(dǎo)泛化誤差的是維度等其他項,此時進(jìn)行生成式數(shù)據(jù)增強(qiáng)可以常數(shù)級降低泛化誤差,同樣地,這意味著在過擬合的場景下,生成式數(shù)據(jù)增強(qiáng)是很有必要的。

wKgaomVHiHeAKZIiAAAtJ0fTuoM406.png

實(shí)驗(yàn)

3.1 高斯混合模型模擬實(shí)驗(yàn)

我們在混合高斯分布上驗(yàn)證我們的理論,我們調(diào)整數(shù)據(jù)量 ,數(shù)據(jù)維度 以及 。實(shí)驗(yàn)結(jié)果如下圖所示:

wKgaomVHiHeAYt00AAPmkD4BAPc854.png

simulation

  1. 觀察圖(a),我們可以發(fā)現(xiàn)當(dāng) 相對于 足夠大的時候,生成式數(shù)據(jù)增強(qiáng)的引入并不能明顯改變泛化誤差。
  2. 觀察圖(d),我們可以發(fā)現(xiàn)當(dāng) 固定時,真實(shí)的泛化誤差確實(shí)是 階的,且隨著增強(qiáng)數(shù)量 的增大,泛化誤差呈現(xiàn)常數(shù)級的降低。
  3. 另外 4 張圖,我們選取了兩種情況,驗(yàn)證了我們的 bound 能在趨勢上一定程度上預(yù)測泛化誤差。
這些結(jié)果支持了我們理論的正確性。3.2 深度生成模型實(shí)驗(yàn)我們使用 ResNet 作為分類器,cDCGAN、StyleGANv2-ADA 和 EDM 作為深度生成模型,在 CIFAR-10 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如下所示。由于訓(xùn)練集上訓(xùn)練誤差都接近 0,所以測試集上的錯誤率是泛化誤差的一個比較好的估計。我們利用是否做額外的數(shù)據(jù)增強(qiáng)(翻轉(zhuǎn)等)來近似 是否充足。

wKgaomVHiHeAFLvEAATLiWid_qI427.png

▲ deep

  1. 在沒有額外數(shù)據(jù)增強(qiáng)的時候, 較小,分類器陷入了嚴(yán)重的過擬合。此時,即使選取的 cDCGAN 很古早(bad GAN),生成式數(shù)據(jù)增強(qiáng)都能帶來明顯的提升。
  2. 在有額外數(shù)據(jù)增強(qiáng)的時候, 充足。此時,即使選取的 StyleGAN 很先進(jìn)(SOTA GAN),生成式數(shù)據(jù)增強(qiáng)都難以帶來明顯的提升,在 50k 和 100k 增強(qiáng)的情況下甚至都造成了一致的損害。
  3. 我們也測試了一個 SOTA 的擴(kuò)散模型 EDM,發(fā)現(xiàn)即使在有額外數(shù)據(jù)增強(qiáng)的時候,生成式數(shù)據(jù)增強(qiáng)也能提升分類效果。這意味著擴(kuò)散模型學(xué)習(xí)分布的能力可能會優(yōu)于 GAN。


原文標(biāo)題:NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果?

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:NeurIPS 2023 | 如何從理論上研究生成式數(shù)據(jù)增強(qiáng)的效果?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Gartner報告看Atlassian在生成AI領(lǐng)域的創(chuàng)新路徑與實(shí)踐價值

    Atlassian入選Gartner 2025生成AI技術(shù)"新興領(lǐng)導(dǎo)者"!其核心AI產(chǎn)品Rovo依托Teamwork Graph,支持團(tuán)隊知識庫中提取情境化的個性答案與洞察
    的頭像 發(fā)表于 06-05 15:59 ?215次閱讀
    <b class='flag-5'>從</b>Gartner報告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI領(lǐng)域的創(chuàng)新路徑與實(shí)踐價值

    利用LT8361做一個將30V輸入轉(zhuǎn)為-70V或-80V或-90V輸出,它可以在理論上實(shí)現(xiàn)嗎?

    您好,我想咨詢一個問題,我看LT8361手冊里寫的他是100V的開關(guān),這個100V是指輸出電壓至地還是指 輸出電壓至輸入,即我想利用LT8361做一個將30V輸入轉(zhuǎn)為-70V或-80V或-90V輸出,它可以在理論上實(shí)現(xiàn)嗎? 期待您的回復(fù),感謝!
    發(fā)表于 04-18 07:57

    IBM如何基于SAP平臺和數(shù)據(jù)推動生成AI的成功應(yīng)用

    “近日,IBM 商業(yè)價值研究院(IBV)與 SAP 研究洞察中心聯(lián)合開展了一項大規(guī)模調(diào)研,覆蓋全球 1200余位全球企業(yè)高管,其中 200位來自大中華區(qū),以深入洞察組織如何基于 SAP 平臺和數(shù)據(jù)推動
    的頭像 發(fā)表于 04-17 10:20 ?339次閱讀

    浙江大學(xué)與大華股份共建研究生聯(lián)合培育基地

    近日,浙江大學(xué)研究生產(chǎn)教融合人才培養(yǎng)工作會議在杭州召開,會上舉行了校級聯(lián)合培養(yǎng)基地授牌儀式暨行業(yè)導(dǎo)師聘書頒發(fā)儀式,大華股份作為校級聯(lián)合培養(yǎng)基地代表參會,標(biāo)志著“浙江大學(xué)-大華股份研究生聯(lián)合培養(yǎng)基地”正式成立。
    的頭像 發(fā)表于 03-27 15:34 ?317次閱讀

    ?Diffusion生成動作引擎技術(shù)解析

    開發(fā)、虛擬現(xiàn)實(shí)、影視動畫和機(jī)器人控制等領(lǐng)域具有廣泛應(yīng)用前景。以下是其核心原理、技術(shù)實(shí)現(xiàn)和應(yīng)用方向的詳細(xì)解析: 一、核心原理 擴(kuò)散模型基礎(chǔ) Diffusion模型通過逐步添加噪聲破壞數(shù)據(jù)(正向過程),再學(xué)習(xí)逆向去噪過程(逆向過程),最終隨機(jī)噪聲中
    的頭像 發(fā)表于 03-17 15:14 ?1600次閱讀

    聚云科技獲亞馬遜云科技生成AI能力認(rèn)證

    的應(yīng)用上展現(xiàn)出了卓越的能力。 聚云科技通過整合亞馬遜云科技的先進(jìn)技術(shù),應(yīng)用范圍確定、模型選擇、數(shù)據(jù)處理、模型調(diào)優(yōu)到應(yīng)用集成與部署,為企業(yè)提供全方位的生成AI應(yīng)用落地支持。這不僅加速
    的頭像 發(fā)表于 02-19 10:33 ?391次閱讀

    聚云科技榮獲亞馬遜云科技生成AI能力認(rèn)證

    Bedrock等技術(shù),應(yīng)用范圍、模型選擇、數(shù)據(jù)處理、模型調(diào)優(yōu)到應(yīng)用集成與部署等方面,助力企業(yè)加速生成AI應(yīng)用落地。此外,聚云科技還基于亞馬遜云科技打造RAGPro企業(yè)知識庫、AI
    的頭像 發(fā)表于 02-14 16:07 ?337次閱讀

    聚云科技榮獲亞馬遜云科技生成AI能力認(rèn)證 助力企業(yè)加速生成AI應(yīng)用落地

    數(shù)據(jù)處理、模型調(diào)優(yōu)到應(yīng)用集成與部署等方面,助力企業(yè)加速生成AI應(yīng)用落地。此外,聚云科技還基于亞馬遜云科技打造RAGPro企業(yè)知識庫、AI-Space、DecisionAI和數(shù)字人等生成
    發(fā)表于 02-14 13:41 ?128次閱讀

    檢索增強(qiáng)生成(RAG)系統(tǒng)詳解

    流暢且類似人類的文本方面表現(xiàn)出色,但它們有時在事實(shí)準(zhǔn)確性存在困難。當(dāng)準(zhǔn)確性非常重要時,這可能是一個巨大的問題。 那么,這個問題的解決方案是什么呢?答案是檢索增強(qiáng)生成(RAG)系統(tǒng)。 RAG集成了像GPT這樣的模型的強(qiáng)大功能,
    的頭像 發(fā)表于 12-24 10:44 ?866次閱讀
    檢索<b class='flag-5'>增強(qiáng)</b>型<b class='flag-5'>生成</b>(RAG)系統(tǒng)詳解

    調(diào)試ADS5400的時候,采集到的數(shù)據(jù)在沒有信號輸入時有毛刺,為什么?

    我在調(diào)試ADS5400的時候,1G采樣率,雙通道,DDR模式,發(fā)現(xiàn)采集到的數(shù)據(jù)在沒有信號輸入時有毛刺現(xiàn)象。在spi不配置的情況下,輸出偏移二進(jìn)制,理論上ADS5400輸出的值在2048左右,但是會出現(xiàn)520和3320的數(shù)據(jù)。這
    發(fā)表于 12-12 06:45

    在設(shè)備利用AI Edge Torch生成API部署自定義大語言模型

    ,從而無縫地將新的設(shè)備端生成 AI 模型部署到邊緣設(shè)備。本文是 Google AI Edge 博客連載的第二篇。一篇文章為大家介紹了 Google AI Edge Torch,該
    的頭像 發(fā)表于 11-14 10:23 ?956次閱讀
    在設(shè)備<b class='flag-5'>上</b>利用AI Edge Torch<b class='flag-5'>生成</b><b class='flag-5'>式</b>API部署自定義大語言模型

    ADS9234R的采樣速率理論上是多少,在正常設(shè)計中是否還會降低?

    請問,傳統(tǒng)四線SPI的情況下,在一區(qū)傳輸模式中,利用MCU(SPI給的60MHZ最大;MCU主頻480MHZ),它的采樣速率理論上是多少,在正常設(shè)計中是否還會降低?
    發(fā)表于 11-13 06:04

    生成AI工具作用

    生成AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此,petacloud.ai小編為您整理生成
    的頭像 發(fā)表于 10-28 11:19 ?642次閱讀

    運(yùn)放THS4551理論上輸入是線性的,DC掃描,輸出也是線性的,為什么我們的輸出不是線性的?

    運(yùn)放THS4551 理論上輸入是線性的,DC掃描,輸出也是線性的,為什么我們的輸出不是線性的?是哪里存在問題嗎?請幫忙解決,謝謝
    發(fā)表于 08-15 07:20

    如何用C++創(chuàng)建簡單的生成AI模型

    生成AI(Generative AI)是一種人工智能技術(shù),它通過機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)技術(shù),大量歷史數(shù)據(jù)中學(xué)習(xí)對象的特征和規(guī)律,從而能夠生成
    的頭像 發(fā)表于 07-05 17:53 ?1595次閱讀