女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

列舉一些常見的數據問題以及解決方案

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:機智的叉燒 ? 2022-11-09 10:28 ? 次閱讀

日常工作中,因為很多原因,我們面對的問題總不能一下放模型里,就能就得到很好的效果,前面有文章詳細講過可以通過bad case分析定位并解決問題(心法利器[40] | bad case治療術:解決篇,這是最后一篇),今天換個角度,從一個分類任務來看,會有哪些問題,以及有哪些可以考慮的解決方案。

這里,我按照問題作為分類,來給出一些常見的解決方案。

看完這篇文章后,別遇事不決換模型了,別讓老板知道你只會這招(狗頭)。

數據的問題

在現實問題下,有80%以上的效果不好,都是由于數據的問題,這里我來列舉一些常見的數據問題以及解決方案。

數據標注錯誤

人很難不犯錯的,即使是一些比較出名的開源數據集,其實也很難達到全對的水平,很多數據集只要認真做過case,例如做過case分析,就會發現其實有很多的標注錯誤,實際應用中,大部分情況準確率能達到95%就已經是高質量的數據了,一般能達到90-92%這個數據集就基本可用了,而如果模型本身預測的結果準確率就只是在90%上下,其實模型已經很大程度擬合好了這個數據集,再往上的提升很可能只是分數高,擬合了錯誤結果而已,這個是需要首先說明的。

其次,有些數據集,和很多原因有關,無論是訓練集還是測試集,準確率可能都只是在六七十甚至更低,我們其實無法苛求模型能達到更好的水平。對訓練集,如果質量低,這事就和拿了本錯誤的教材一樣,根本學不好,對測試集,再優秀的模型遇到這個測試集,即使預測對了,標注是錯的,體現在指標上也是準確率很低,模型怎么換效果都不好。

這個數據標注問題,往往體現的是這個系統的上限,此時,我們所應該聚焦的,就是提升數據標注的準確性,這里給出大家提一些可以考慮的策略:

仔細修正標注策略(畢竟數據標注除了人工還有很多方法),制定更多規則來優化。

如果數據標注比較困難,可以考慮多人標注,對不一致的部分進行復合,整體質量提升會比較明顯。

配合模型、規則等多個策略進行比對,對不一致的部分進行復標。

利用模型,對模棱兩可(二分類概率在0.5上下)或者明顯錯誤的(正類prob在0.1左右或負類prob在0.9左右),進行復標。

后面幾個策略其實挺“主動學習”的,核心就是通過模糊或者不一致來挖掘很可能有錯的部分進行復合,來提升整體的質量。

數據數量問題

現階段,雖然有無監督之類的很多策略,但是對于特定的任務或者需求,總是離不開訓練數據的,我們需要數據來讓模型知道“遇到這個情況該選哪個”,因此數據數量是需要基本保證的。

首先,很多人很容易想到兩個常見策略:

數據增強。

無監督。

這兩個方案,是可以的,但不是萬能的:

數據增強——在本身數據的覆蓋面已經較充足的情況。例如天氣意圖的分類,其實來回就這么集中情況,列舉完增強就行。但是遇到類似電影、電視劇意圖的分類,分布很難完整覆蓋,只有幾條樣本完全不能通過常規的增強解決。

無監督——如果有自信模型能往特定的方向預測,那這么做其實還行,但是定向這事很困難的,例如都是二分類問題,一個分是否是天氣意圖,一個分是否是電影意圖,都是同一批數據,如何知道訓出的無監督模型朝著那個任務的方向預測?

所以,私以為還是要從人體的根源出發。分幾個情況吧:

整體數據都很少的情況。

整體數據尚可,但是特定類目或者特定情況的數據太少的情況。

對于整體數據都很少的問題,如果是像我前面說的——在本身數據的覆蓋面已經較充足的情況,那其實直接數據增強是可以的,增強之后會讓模型強化對特定意識的了解,直接就能學出來了,但是如果不足,那就要找渠道增加數據了,有用戶數據的,可以撈一些用戶query,根據用戶點擊在整理下,沒有的,結合一些詞典構造一些樣本放入也是可以的,甚至有一些場景是有公開數據的,直接拿來用。

而對于數據樣本不均衡的問題,之前有寫過文章介紹,此處不贅述了(心法利器[44] | 樣本不均衡之我見)。

小補充

只有在數據的數量和質量都比較充足的時候,我們才有資格去談模型,談其他的優化策略,這應該是一名成熟的算法工程師所需要掌握的基礎知識。

模型升級的收益

模型的升級往往帶來的是一個系統級別的提升,這個系統提升是上限的提升,只有到這個系統內部的多個位置都已經有比較高了,這時候換模型才能帶來比較明顯的收益,例如數據已經調教的比較好,沒有什么大問題,這個時候升級模型能很快提分,這里例如fasttext->textcnn,上預訓練模型等,但是確實是要看清切換的時機,畢竟切換是需要成本的,到時候切換完效果不提升,白干活的話KPI很容易崩的(狗頭)。

有關切換時機,大家可以看這篇(心法利器[63] | 預訓練模型的上線時機)。

特定樣本引入打來的提升

常規下,要調整效果,還是要從bad case里出發,理解數據中常見的問題,然后進行優化,其實是日常最常用的方式,這個方式簡單快速,但是也有難點,難的是發現規律并進行解決,這里給大家介紹一些比較常見的問題和主要解決方法。

正負樣本里某些詞的詞頻差距很大,導致模型認為出現的這個詞就是分類標志,導致分類錯誤。

解決方法1,撈日志,這個詞在正類多就找帶這個詞的負類樣本,反之亦然。

解決方法2,刪除樣本,例如這個詞在正類多就干掉一些正樣本。

泛化能力不足,模型只學到了正規的句式,對于泛化、換個說法的樣本可能就預測錯了。

r-dropout,值得推薦。

拼接,和一些無意義、閑聊類的句子進行拼接,維持源類別,放入對應類目的樣本中。

數據增強,尤其關注隨機交叉的這個策略,有收益。

檢索增強,用向量召回最接近的句子,用這批放入對應類目。

因為缺乏特定形式的樣本(模型沒見過),導致模型只能猜還猜不對。

加入特定類型的樣本。(在天氣意圖分類數據里,把“天氣之子”作為負樣本放入訓練集中)

考慮通過別的方式解決,例如用詞典(心法利器[41] | 我常說的詞典匹配到底怎么做)或者以搜代分的方式來處理(心法利器[60] | 以搜代分的生效機理)補充。

當然,還有一些別的策略,這些策略很大程度和自己對業務、數據的理解有關,越是了解提升的幅度會越大。最近的一次實驗,由于用戶query其實都是語音轉文字得到的句子,而由于采音、ASR等問題,得到的用戶query可能不是完整的,不完整意味著可能有關鍵詞但是信息仍舊模糊,這就容易導致誤召回了(模糊或者無意義的句子是會被認為是負類的),因此,我才用的策略是對常見高頻的句子做隨機截斷,然后放入負類中,最終結果是以2%的召回率代價換來了4%的準確率提升,算是收益較大的,漏召回的會根據實際情況再調整即可。

其他策略的引入

一個完整可控的系統,不能光靠模型來解決所有問題,而實際上也是模型并不能解決所有問題,我們需要眾多的支持和輔助,構造成一個系統,才能讓整體效果達到新的高度,這里有一些可以考慮的思路。

對于簡單、高頻的問題,其實不太認為需要模型,處理用一些詞典和規則能更加穩定可控地解決。

如果問題的尾巴比較長,長尾問題的樣本比較難獲取,占比較低,此時模型并不能學得好,與其考慮增強和挖掘,不如交給檢索的方式做更加高效,別考慮增加特定樣本了(以搜代分:心法利器[26] | 以搜代分:文本多分類新思路)。

模型附帶后處理,解決模棱兩可,或者比較邊界的問題,舉個例子:

閾值大于0.7的才是正類,0.5-0.7的部分需要依賴別的因素做進一步判斷才準入。

多個分類模塊組合,最終用加入rank層進行多結果的排序,解決復雜多變的分類場景。

多個二分類,不讓模型處理混淆問題,最終rank層再來擇優。

類目體系更新頻繁,重訓模型對其他類目影響大。

多個分類場景差異大,數據不好平衡。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據集
    +關注

    關注

    4

    文章

    1223

    瀏覽量

    25284

原文標題:文本分類日常提點技巧

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    常見xgboost錯誤及解決方案

    XGBoost(eXtreme Gradient Boosting)是種流行的機器學習算法,用于解決分類和回歸問題。盡管它非常強大和靈活,但在使用過程中可能會遇到一些常見的錯誤。以下是一些
    的頭像 發表于 01-19 11:22 ?2232次閱讀

    常見換熱器故障及解決方案

    換熱器是工業生產中用于傳遞熱量的設備,常見于化工、石油、食品加工、制藥等行業。它們可以是管殼式、板式、螺旋板式等多種形式。換熱器的故障可能會導致效率下降、生產中斷甚至安全事故。以下是一些常見的換熱器
    的頭像 發表于 01-19 10:45 ?935次閱讀

    常見OTDR故障及解決方案

    OTDR(光時域反射儀)是種用于測量光纖鏈路特性的儀器,它通過發送光脈沖并測量反射回來的光信號來確定光纖的長度、損耗和故障位置。以下是一些常見的OTDR故障及其解決方案的概述: 1.
    的頭像 發表于 12-30 18:17 ?1975次閱讀

    DFT的常見誤區與解決方案

    DFT(離散傅里葉變換)在信號處理領域具有廣泛的應用,但在使用過程中也常會遇到一些誤區。以下是對DFT常見誤區的總結以及相應的解決方案常見
    的頭像 發表于 12-20 09:32 ?1238次閱讀

    SSM開發中的常見問題及解決方案

    在SSM(Spring + Spring MVC + MyBatis)框架的開發過程中,開發者可能會遇到一些常見問題。以下是對這些問題的詳細分析以及相應的解決方案
    的頭像 發表于 12-17 09:16 ?1210次閱讀

    常見的時間繼電器故障及解決方案

    時間繼電器在工業自動化和電力控制等領域中發揮著重要作用,但由于長時間使用或環境因素等原因,可能會出現一些常見故障。以下是一些常見的時間繼電器故障及其
    的頭像 發表于 12-09 10:32 ?3891次閱讀

    常見的GND連接錯誤及解決方案

    GND(接地)連接在電子設計和硬件開發中至關重要,錯誤的GND連接可能導致電路不穩定、信號干擾甚至設備損壞。以下是一些常見的GND連接錯誤及其解決方案、GND網絡未連接 問題描述
    的頭像 發表于 11-29 16:02 ?5318次閱讀

    常見BGA芯片故障及解決方案

    BGA(Ball Grid Array,球柵陣列)芯片在電子設備中扮演著重要角色,但其也可能出現一些常見故障。以下是一些常見的BGA芯片故障及其相應的
    的頭像 發表于 11-23 13:54 ?1241次閱讀

    buck電路常見故障及解決方案

    Buck電路是種常用的降壓電路,但在使用過程中可能會遇到一些故障。以下是一些常見的Buck電路故障及其解決方案
    的頭像 發表于 11-21 10:02 ?3554次閱讀

    TTL電路中的常見問題及解決方案

    問題。以下是對這些問題的歸納以及相應的解決方案、電源問題 常見問題 : 電源電壓過高或過低,導致電路無法正常工作或損壞。 電源與地顛倒接錯,造成電流過大,損壞器件。
    的頭像 發表于 11-18 10:32 ?2711次閱讀

    一些常見的動態電路

    無論是模電還是數電,理論知識相對來說還是比較枯燥,各種電路原理理解清楚不算容易,換種生動形象的方式或許會增加一些趣味性,也更容易理解這些知識。下面整理了一些常見的電路,以動態圖形的方
    的頭像 發表于 11-16 09:26 ?974次閱讀
    <b class='flag-5'>一些</b><b class='flag-5'>常見</b>的動態電路

    aes加密的常見錯誤及解決方案

    的歸納以及相應的解決方案常見錯誤 編碼問題 : 在將字節數組轉換成字符串時,如果使用了不同的編碼格式,可能會導致解密后的數據出現亂碼。 密鑰長度問題 : AES算法支持128位、1
    的頭像 發表于 11-14 15:13 ?3834次閱讀

    PID控制的常見問題及解決方案

    問題。以下是一些常見的問題及其解決方案: 1. 響應速度慢 問題描述: 系統響應速度慢,無法快速跟蹤設定值的變化。 解決方案: 增加比例增益(P): 增加比例增益可以提高系統的響應速度
    的頭像 發表于 11-13 14:37 ?6996次閱讀

    分享一些常見的電路

    理解模電和數電的電路原理對于初學者來說可能比較困難,但通過一些生動的教學方法和資源,可以有效地提高學習興趣和理解能力。 下面整理了一些常見的電路,以動態圖形的方式展示。 整流電路 單相橋式整流
    的頭像 發表于 11-13 09:28 ?727次閱讀
    分享<b class='flag-5'>一些</b><b class='flag-5'>常見</b>的電路

    SUMIF函數常見錯誤及解決方案

    SUMIF函數是Excel中個非常實用的函數,用于根據給定條件對數據進行求和。然而,在使用過程中,用戶可能會遇到一些常見錯誤。 1. 錯誤:范圍不正確 錯誤描述: 用戶可能沒有正確設
    的頭像 發表于 11-11 09:10 ?5363次閱讀