女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

《機器學習訓練秘籍》:書中選出了7條非常有用的建議

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-05-15 18:45 ? 次閱讀

機器學習訓練秘籍》(Machine Learning Yearning)是吳恩達的新作,主要講的是如何應用機器學習算法以及如何構建機器學習項目。本文從這本書中選出了 7 條非常有用的建議。

近年來,人工智能、機器學習和深度學習迅猛發展,給許多行業帶來了變革。吳恩達是業內的領軍人物之一,他是在線課程項目 Coursera 的聯合創始人,前百度 AI Group 領導人,前 Google Brain 項目負責人。目前他正在編寫《機器學習訓練秘籍》(http://www.mlyearning.org/)這本書,教讀者如何組織機器學習項目。

吳恩達在書中寫道:

這本書主要是教你如何應用機器學習算法,而不是教你機器學習算法本身。一些AI技術課程會教你算法,而這本書旨在教你如何使用算法這個利器。如果你想成為 AI領域的技術領袖,并希望學習如何為你的團隊設定方向,這本書會給你幫助。

我們在閱讀這本書的原稿后從中選出了 7 條有趣且實用的建議.

▌1. 選擇正確的評估指標

在評估某個算法時,不應該只使用一個公式或指標,而應使用多個評估指標。其中一種方法就是使用“optimizing”和“satisfying”作為指標。

以上圖為例,首先定義一個“acceptable”(可接受)的運行時間(例如小于 100 毫秒),作為“satisfying”指標。只要運行時間低于這個指標,你的分類器就「很好」。“準確度”在這里作為“optimizing”指標。這是一種非常有效且容易的算法評估方法。

▌2. 快速選擇開發/測試集——如果有必要不要害怕更換

當開始一個新項目時,吳恩達在書中解釋道他會很快選擇開發集/測試集,因為這樣可以給團隊制定一個明確的目標。開始時他會先制定第一周的目標,提出一個不太完美的方案并迅速行動起來,比花過多時間思考更好。

如果你突然發現初始的開發/測試集不正確時,不要害怕更改它們。以下是書中給出的開發/訓練集不正確的三個可能原因:

要使用的實際數據分布和開發/測試集不同

開發/測試集過度擬合

評估指標衡量的并不是項目所需要優化的東西

請謹記,更改開發/測試集不是什么大問題。放心更改,讓你的團隊知道你們的新方向。

▌3. 機器學習是一個迭代過程:不要指望第一次就成功

吳恩達寫道他開發機器學習軟件的過程分三步:

從一個想法開始

用代碼實現這個想法

通過實驗判斷這個想法是否成功

這是一個不斷迭代的過程。循環得越快,進展也就越快。這就是為什么提前確定開發/測試集很重要,因為這樣做可以在這個迭代過程中省下寶貴的時間。每嘗試一個新想法時,在開發/測試集上衡量這個想法的表現,這樣你就可以快速判斷你是否在朝著正確的方向前進。

▌4. 快速構建第一個系統,然后迭代

在第三條建議中,我們提到構建機器學習算法是一個迭代過程。吳恩達專門用一個章節解釋了快速構建第一個系統然后迭代的好處:「不要試圖一開始就設計和構建完美的系統。相反,應該快速構建和訓練出一個基本系統——也許在短短的幾天內。即使這個基本系統與您你構建的“最佳”系統相差甚遠,研究基本系統的表現仍非常有參考價值:你很快就會找到線索,以此確定哪個方向最有希望獲得成功。」

▌5. 并行評估多個想法

當你的團隊針對如何改進某一算法提出了很多想法,你可以高效地并行評估這些想法。舉例來說,構建一個能識別貓照片的算法,吳恩達稱他通常會創建一個電子表格,瀏覽大約 100 張分類錯誤的開發/測試集圖像并在表格上記錄。

在表格上記錄:對每張圖像的分析,造成算法分類錯誤的原因,以及可能對未來反思有幫助的評論。填完后,你會得出哪種想法可以避免更多錯誤,然后再去實現它。

▌6. 思考清理貼錯標簽的開發/測試集是否值得

在錯誤分析期間,你可能會注意到開發/測試集中的一些樣本被錯誤標注(mislabeled)。也就是說,在用算法處理前之前,圖片已經被人類標注員貼上了錯誤的標簽。如果你懷疑有一小部分的圖片被錯誤標注是由于這個原因,那么可以在電子表格中添加再一個類別進行記錄:

在完成后,你可以思考修正這些錯誤是否值得。吳恩達給出了兩種可能的場景,讓讀者判斷修正錯誤是否值得:

示例1:

開發集的整體準確率……90%(整體錯誤率為 10%)

貼錯標簽樣本導致的錯誤……0.6%(占開發集錯誤的 6%)

其他原因導致的錯誤……9.4%(占開發集錯誤的 94%)

在這個例子中,相較于你可能改進的 9.4% 的錯誤,由于錯誤標注導致的 0.6% 的不準確率就可能沒那么重要。手動修正開發集中錯誤標注的圖像并沒有什么壞處,但這樣做并不是關鍵:不知道系統的整體錯誤是 10% 還是 9.4% 可能沒什么大不了。

示例 2:

開發集整體準確率……98.0%(整體錯誤率為 2.0%)

貼錯標簽樣本導致的錯誤……0.6%(占開發集錯誤的 30%)

其他原因導致的錯誤……1.4%(占開發集錯誤的 70%)

30% 的錯誤是由于錯誤標注的開發集圖像造成的,這會讓準確率的估計值有很大的誤差。這種情況下,改進開發集的標注質量很值得。處理錯誤標注的樣本將幫助你算出分類器的錯誤是接近 1.4% 還是 2%——這是一個相對明顯的差異。

▌7. 考慮將開發集分為多個子集

如果你的開發集很大,其中 20% 的樣本被算法錯誤分類,那么你可以將這個開發集分為兩個獨立的子集:

比方說,你有一個包含 5000 個樣本的大開發集,其中 1000 個樣本被錯誤分類。假設我們要手動檢查約 100 個錯誤樣本(錯誤樣本的10%),進行錯誤分析。那么你應該隨機選出 10% 的開發集,然后將其放入我們稱之為 Eyeball 的開發集(Eyeball dev set)中,以提醒自己你需要觀察這些數據。Eyeball 開發集有 500 個樣本,我們預計算法錯誤分類的樣本約有 100 個。

開發集的第二個子集叫做 Blackbox 開發集(Blackbox dev set),它包含剩余的 4500 個樣本。你可以用 Blackbox 開發集測定圖像分類的錯誤率,以此自動評估分類器。你也可以使用它來選擇算法或調整超參數。我們將這個子集稱為 “Blackbox”,是因為我們只使用數據集的子集來取得對分類器的“Blackbox”(黑盒)評估。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48798

    瀏覽量

    247098
  • 機器學習
    +關注

    關注

    66

    文章

    8495

    瀏覽量

    134181

原文標題:吳恩達《機器學習訓練秘籍》:7 條關于項目實踐的實用建議

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    細微差異導致的錯誤,這無疑增加了調試的難度。因此,我個人建議書中若能在關鍵代碼段旁邊添加二維碼,鏈接到可在線運行或驗證的代碼環境,將極大地提升讀者的學習效率和體驗。這樣一來,讀者不僅可以快速驗證代碼的正確性,還能在互動中加深對
    發表于 08-12 11:21

    對新手非常有用的電子器件基礎資料

    本帖最后由 eehome 于 2013-1-5 09:56 編輯 對新手非常有用的電子器件基礎資料PCB打樣找華強 http://www.hqpcb.com/3 樣板2天出貨
    發表于 10-20 20:13

    03國賽控制類準備步驟,非常有用

    這是關于國賽準備的一些模塊原理圖以及相關PCB布線等的步驟,非常有用
    發表于 01-23 22:00

    吳恩達的7機器學習訓練秘籍

    非常有用建議。吳恩達介紹道:本書的重點不在于教授機器學習算法,而在于如何使機器學習算法發揮作用
    發表于 09-20 11:41

    機器學習訓練秘籍——吳恩達

    ,你正面臨著巨大的壓力。可你該怎么做呢?你的團隊給出了許多建議,例如:● 獲取更多的數據,即收集更多的貓咪圖片● 收集更加多樣化的訓練數據集,圖片中貓的位置可能不常見,也有可能顏色奇異,或者拍攝時使用不
    發表于 11-30 16:45

    展示Python機器學習開源項目以及在分析過程中發現的非常有趣的見解和趨勢

    開源是技術創新和快速發展的核心。這篇文章向你展示Python機器學習開源項目以及在分析過程中發現的非常有趣的見解和趨勢。
    的頭像 發表于 01-04 11:51 ?4334次閱讀
    展示Python<b class='flag-5'>機器</b><b class='flag-5'>學習</b>開源項目以及在分析過程中發現的<b class='flag-5'>非常有</b>趣的見解和趨勢

    機器學習-8. 支持向量機(SVMs)概述和計算

    支持向量機(Support Vector Machine: SVM)是一種非常有用的監督式機器學習算法
    的頭像 發表于 04-02 08:49 ?5438次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>-8. 支持向量機(SVMs)概述和計算

    17個非常有用的 Python 技巧

    實際上,很多人選擇學習 Python 的首要原因是其編程的優美性,用它編碼和表達想法非常自然。此外,Python 的編寫使用方式有多種,數據科學、網頁開發、機器學習皆可使用 Pytho
    的頭像 發表于 08-27 17:56 ?5138次閱讀
    17個<b class='flag-5'>非常有用</b>的 Python 技巧

    Vim中默認未啟用但實際非常有用的選項

    Vim 作為一款功能強大、選項豐富的編輯器,為許多用戶所熱愛。本文介紹了一些在 Vim 中默認未啟用但實際非常有用的選項。雖然可以在每個 Vim 會話中單獨啟用,但為了創建一個開箱即用的高效編輯環境,還是建議在 Vim 的配置文件中配置這些命令。
    的頭像 發表于 09-25 17:54 ?5587次閱讀

    機器學習訓練秘籍》中的六個概念

    吳恩達在該書中從頭到尾一直強調:由于機器學習是一個迭代的過程,快速迭代至關重要。比起去思考如何為你的問題建造一個完美的機器學習系統,不如先盡
    的頭像 發表于 03-05 13:44 ?3002次閱讀

    機器學習/人工智能領域一些非常有創意的突破

    本文介紹了近期在機器學習/人工智能領域一些非常有創意的突破,每一個都腦洞大開,不管是否是相關從業人員都值得一讀。并附上一些論文、視頻鏈接和簡要總結。
    的頭像 發表于 05-19 10:49 ?3650次閱讀

    機器學習對分析地理空間圖像非常有幫助

    機器學習對分析地理空間圖像非常有幫助。衛星照片往往會創建大量數據,而AI軟件可以比人類觀察者更快地標記出感興趣的項目。例如,在澳大利亞,消防員定期分析衛星圖像以監測野火的蔓延,并努力保持領先地位。
    的頭像 發表于 03-22 16:23 ?2245次閱讀

    17個非常有用的Python技巧

    Python 是一門非常優美的語言,其簡潔易用令人不得不感概人生苦短。在本文中,作者 Gautham Santhosh 帶我們回顧了 17 個非常有用的 Python 技巧,例如查找、分割和合并列表等。這 17 個技巧都非常簡單
    的頭像 發表于 04-10 14:28 ?712次閱讀

    一個簡單但非常有用的小前置放大器電路

    一個簡單但非常有用的小前置放大器電路可以通過連接幾個晶體管來構建。該裝置可輕松將 1mV 信號提升至 100mV 甚至更高。因此,它非常方便放大不能直接與功率放大器一起使用的極小信號。
    的頭像 發表于 06-10 17:27 ?1935次閱讀
    一個簡單但<b class='flag-5'>非常有用</b>的小前置放大器電路

    沒有什么是完美的,但FPGA可能非常有用

    FPGA是非常有用的器件,通常與ADI公司的ADC或功率IC等一起設計到客戶的設計中。FPGA 可以實現微控制器和所需的任何膠水邏輯。在這篇博客中,我將討論一些與功能安全和FPGA相關的問題。
    的頭像 發表于 06-29 10:28 ?1763次閱讀
    沒有什么是完美的,但FPGA可能<b class='flag-5'>非常有用</b>