女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何解決樣本不均的問題?

深度學習自然語言處理 ? 來源:煉丹筆記 ? 作者:時晴 ? 2021-05-26 09:19 ? 次閱讀

樣本不均的問題大家已經很常見了,我們總是能看到某一個類目的數量遠高于其他類目,舉個例子,曝光轉化數遠低于曝光未轉化數。樣本不均嚴重影響了模型的效果,甚至影響到我們對模型好壞的判斷,因為模型對占比比較高的類目準確率非常高,對占比很低的類目預估的偏差特別大,但是由于占比較高的類目對loss/metric影響較大,我們會認為得到了一個較優的模型。比如像是異常檢測問題,我們直接返回沒有異常,也能得到一個很高的準確率。

重采樣

這個是目前使用頻率最高的方式,可以對“多數”樣本降采樣,也可以對“少數”樣本過采樣,如下圖所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采樣的缺點也比較明顯,過采樣對少數樣本“過度捕撈”,降采樣會丟失大量信息。

重采樣的方案也有很多,最簡單的就是隨機過采樣/降采樣,使得各個類別的數量大致相同。還有一些復雜的采樣方式,比如先對樣本聚類,在需要降采樣的樣本上,按類別進行降采樣,這樣能丟失較少的信息。過采樣的話,可以不用簡單的copy,可以加一點點“噪聲”,生成更多的樣本。

Tomek links

Tomek連接指的是在空間上“最近”的樣本,但是是不同類別的樣本。刪除這些pair中,占大多數類別的樣本。通過這種降采樣方式,有利于分類模型的學習,如下圖所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

這個方法可以給少數樣本做擴充,SMOTE在樣本空間中少數樣本隨機挑選一個樣本,計算k個鄰近的樣本,在這些樣本之間插入一些樣本做擴充,反復這個過程,知道樣本均衡,如下圖所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

這是個降采樣的方法,通過距離計算,刪除掉一些無用的點。

NearMiss-1:在多數類樣本中選擇與最近的3個少數類樣本的平均距離最小的樣本。

NearMiss-2:在多數類樣本中選擇與最遠的3個少數類樣本的平均距離最小的樣本。

NearMiss-3:對于每個少數類樣本,選擇離它最近的給定數量的多數類樣本。

NearMiss-1考慮的是與最近的3個少數類樣本的平均距離,是局部的;NearMiss-2考慮的是與最遠的3個少數類樣本的平均距離,是全局的。NearMiss-1方法得到的多數類樣本分布也是“不均衡”的,它傾向于在比較集中的少數類附近找到更多的多數類樣本,而在孤立的(或者說是離群的)少數類附近找到更少的多數類樣本,原因是NearMiss-1方法考慮的局部性質和平均距離。NearMiss-3方法則會使得每一個少數類樣本附近都有足夠多的多數類樣本,顯然這會使得模型的精確度高、召回率低。

評估指標

為了避免對模型的誤判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指標。

懲罰項

對少數樣本預測錯誤增大懲罰,是一個比較直接的方式。

使用多種算法

模型融合不止能提升效果,也能解決樣本不均的問題,經驗上,樹模型對樣本不均的解決幫助很大,特別是隨機森林,Random Forest,XGB,LGB等。因為樹模型作用方式類似于if/else,所以迫使模型對少數樣本也非常重視。

正確的使用K-fold

當我們對樣本過采樣時,對過采樣的樣本使用k-fold,那么模型會過擬合我們過采樣的樣本,所以交叉驗證要在過采樣前做。在過采樣過程中,應當增加些隨機性,避免過擬合。

使用多種重采樣的訓練集

這種方法可以使用更多的數據獲得一個泛化性較強的模型。用所有的少數樣本,和多種采樣的多數樣本,構建多個模型得到多個模型做融合,可以取得不錯的效果。

重采樣使用不同rate

這個方法和上面的方法很類似,嘗試使用各種不同的采樣率,訓練不同的模型。

沒有什么解決樣本不均最好的方法,以上內容也沒有枚舉出所有的解決方案,最好的方案就是嘗試使用各種方案。

原文標題:對“樣本不均衡”一頓操作

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48723

    瀏覽量

    246558
  • 模型
    +關注

    關注

    1

    文章

    3487

    瀏覽量

    49998
  • 深度學習
    +關注

    關注

    73

    文章

    5554

    瀏覽量

    122489

原文標題:對"樣本不均衡"一頓操作

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    西門子伺服電機簡明樣本

    西門子伺服電機簡明樣本
    發表于 04-14 15:36 ?0次下載

    請問是否有任何OpenVINO?樣本可以推斷批次大小大于1的檢測模型?

    是否有任何OpenVINO?樣本可以推斷批次大小大于 1 的檢測模型?
    發表于 03-06 07:19

    假設檢驗的功效和樣本數量

    在假設檢驗中,我們會使用樣本中的數據來描繪有關總體的結論。首先,我們會進行假設,這被稱為原假設(以 H0 表示)。當您進行原假設時,您也需要定義備擇假設 (Ha),其與原假設正相反。樣本數據將用
    的頭像 發表于 01-15 10:50 ?300次閱讀

    ADS8556和ADS8568采集一個樣本點最快支持多少nS?

    求教一下,有應用經驗的給指導一下,ADS8556 和ADS8568 采集一個樣本點最快支持多少nS,且兩個相鄰樣本點的數據不能相互串擾。
    發表于 12-09 07:16

    磁極是如何解決磁集成產品電磁干擾的?

    磁集成后,有哪些新的電磁干擾源?該如何解決這些新的干擾源?磁極又是如何解決這些問題的? 磁集成后,EMC比分立磁性元件更難通過,到底是什么原因導致的?磁性元件企業又有哪些辦法可以解決?今天我們采訪
    的頭像 發表于 12-06 11:27 ?590次閱讀
    磁極是如<b class='flag-5'>何解</b>決磁集成產品電磁干擾的?

    AFE4960如何正確的從FIFO中讀取樣本呢?

    我有一些問題想請教。 在雙芯片串行模式下,MCU 收到 AFE4960 發送的 FIFO_RDY 中斷信號后,開始通過 SPI 通信從 AFE4960 的 FIFO 中讀取樣本。 具體流程為
    發表于 11-14 06:41

    同步與多個FPGA接口的千兆樣本ADC

    電子發燒友網站提供《同步與多個FPGA接口的千兆樣本ADC.pdf》資料免費下載
    發表于 10-10 11:32 ?0次下載
    同步與多個FPGA接口的千兆<b class='flag-5'>樣本</b>ADC

    CC13xx IQ樣本

    電子發燒友網站提供《CC13xx IQ樣本.pdf》資料免費下載
    發表于 09-20 11:12 ?0次下載
    CC13xx IQ<b class='flag-5'>樣本</b>

    聚徽-工控一體機顯示屏亮度不均怎么辦

    工控一體機顯示屏亮度不均可能由多種原因引起,首先,嘗試通過工控一體機的快捷鍵(如 “Fn”+“F5” 或 “F6”)來調整屏幕亮度,看是否能夠解決亮度不均的問題。
    的頭像 發表于 09-13 09:54 ?603次閱讀

    何解決熱插拔時的電壓過沖

    電子發燒友網站提供《如何解決熱插拔時的電壓過沖.pdf》資料免費下載
    發表于 09-06 11:34 ?0次下載
    如<b class='flag-5'>何解</b>決熱插拔時的電壓過沖

    何解決工字電感噪音大的問題

    電子發燒友網站提供《如何解決工字電感噪音大的問題.docx》資料免費下載
    發表于 09-04 11:46 ?0次下載

    何解決電感的漏感問題

    電子發燒友網站提供《如何解決電感的漏感問題.docx》資料免費下載
    發表于 09-02 14:48 ?0次下載

    英國醫院通過RFID技術跟蹤患者樣本數據……

    英國醫院通過RFID技術跟蹤患者樣本數據 為了更好地管理患者病例中的組織樣本,醫院決定引入RFID技術來構建實時跟蹤系統。利茲教學醫院作為英國國民健康保險制度(NHS)下的重要醫療機構,每年處理
    的頭像 發表于 08-08 16:15 ?494次閱讀
    英國醫院通過RFID技術跟蹤患者<b class='flag-5'>樣本</b>數據……

    system_adc_read_fast為什么只能采集255個樣本

    system_adc_read_fast僅采集 255 個樣本樣本數量增加時,函數凍結,看門狗復位芯片。 NONOS 2.0
    發表于 07-18 08:31

    何解決貼片繞線功率電感的兼容問題

    電子發燒友網站提供《如何解決貼片繞線功率電感的兼容問題.docx》資料免費下載
    發表于 07-04 17:04 ?0次下載