2019激情自拍视频,lsj网站在线观看免费,影音先峰更多内容

導讀

這篇文章提供了可以采取的切實可行的步驟來識別和修復機器學習模型的訓練、泛化和優(yōu)化問題。

眾所周知，調(diào)試機器學習代碼非常困難。即使對于簡單的前饋神經(jīng)網(wǎng)絡也是這樣，你經(jīng)常會在網(wǎng)絡體系結構做出一些決定，重初始化和網(wǎng)絡優(yōu)化——所有這些會都導致在你的機器學習代碼中出現(xiàn)bug。

正如Chase Roberts在一篇關于“How to unit test machine learning code”的優(yōu)秀文章中所寫的，他遇到的麻煩來自于常見的陷阱：

代碼不會崩潰，不會引發(fā)異常，甚至不會變慢。

訓練網(wǎng)絡仍在運行，損失仍將下降。

幾個小時后，數(shù)值收斂了，但結果很差

那么我們該怎么做呢？

本文將提供一個框架來幫助你調(diào)試神經(jīng)網(wǎng)絡：

從最簡單的開始

確認你的損失

檢查中間輸出和連接

對參數(shù)進行診斷

跟蹤你的工作

請隨意跳轉到特定的部分或通讀下面的內(nèi)容！請注意：我們不包括數(shù)據(jù)預處理或特定的模型算法選擇。對于這些主題，網(wǎng)上有很多很好的資源。

1. 從最簡單的開始

一個具有復雜結構和正則化以及學習率調(diào)度程序的神經(jīng)網(wǎng)絡將比一個簡單的網(wǎng)絡更難調(diào)試。我們在第一點上有點欺騙性，因為它與調(diào)試你已經(jīng)構建的網(wǎng)絡沒有什么關系，但是它仍然是一個重要的建議！

從最簡單的開始：

首先建立一個更簡單的模型

在單個數(shù)據(jù)點上訓練模型

首先，構建一個更簡單的模型

首先，構建一個只有一個隱藏層的小型網(wǎng)絡，并驗證一切正常。然后逐步增加模型的復雜性，同時檢查模型結構的每個方面(附加層、參數(shù)等)，然后再繼續(xù)。

在單個數(shù)據(jù)點上訓練模型

作為一個快速的完整性檢查，你可以使用一兩個訓練數(shù)據(jù)點來確認你的模型是否能夠過擬合。神經(jīng)網(wǎng)絡應該立即過擬合，訓練精度為100%，驗證精度與你的模型隨機猜測相匹配。如果你的模型不能對這些數(shù)據(jù)點進行過擬合，那么要么是它太小，要么就是存在bug。

即使你已經(jīng)驗證了模型是有效的，在繼續(xù)之前也可以嘗試訓練一個(或幾個)epochs。

2. 確認你的損失

你的模型的損失是評估你的模型性能的主要方法，也是模型評估的重要參數(shù)，所以你要確保：

損失適合于任務(對于多分類問題使用類別交叉熵損失或使用focal loss來解決類不平衡)

你的損失函數(shù)在以正確的尺度進行測量。如果你的網(wǎng)絡中使用了不止一種類型的損失，例如MSE、adversarial、L1、feature loss，那么請確保所有損失都按正確的順序進行了縮放

注意，你最初的損失也很重要。如果模型一開始就隨機猜測，檢查初始損失是否接近預期損失。在Stanford CS231n coursework中，Andrej Karpathy提出了以下建議：

在隨機表現(xiàn)上尋找正確的損失。確保在初始化小參數(shù)時得到預期的損失。最好先單獨檢查數(shù)據(jù)的loss(將正則化強度設置為零)。例如，對于使用Softmax分類器的CIFAR-10，我們期望初始損失為2.302，因為我們期望每個類的隨機概率為0.1(因為有10個類)，而Softmax損失是正確類的負對數(shù)概率，因此:-ln(0.1) = 2.302。

對于二分類的例子，只需對每個類執(zhí)行類似的計算。假設數(shù)據(jù)是20%的0和80%的1。預期的初始損失是- 0.2ln(0.5) - 0.8ln(0.5) = 0.693147。如果你的初始損失比1大得多，這可能表明你的神經(jīng)網(wǎng)絡權重不平衡(即初始化很差)或者你的數(shù)據(jù)沒有標準化。

3. 檢查內(nèi)部的輸出和連接

要調(diào)試神經(jīng)網(wǎng)絡，通常了解神經(jīng)網(wǎng)絡內(nèi)部的動態(tài)以及各個中間層所起的作用以及這些中間層之間如何連接是很有用的。你可能會遇到以下錯誤：

梯度更新的表達式不正確

權重更新沒有應用

梯度消失或爆炸

如果梯度值為零，這可能意味著優(yōu)化器中的學習率可能太小，或者你遇到了上面的錯誤#1，其中包含梯度更新的不正確的表達式。

除了查看梯度更新的絕對值之外，還要確保監(jiān)視激活的大小、權重的大小和每個層的更新相匹配。例如，參數(shù)更新的大小(權重和偏差)應該是1-e3。

有一種現(xiàn)象叫做“死亡的ReLU”或“梯度消失問題”，ReLU神經(jīng)元在學習了一個表示權重的大的負偏置項后，會輸出一個零。這些神經(jīng)元再也不會在任何數(shù)據(jù)點上被激活。

你可以使用梯度檢查來檢查這些錯誤，通過使用數(shù)值方法來近似梯度。如果它接近計算的梯度，則正確地實現(xiàn)了反向傳播。

Faizan Shaikh描述了可視化神經(jīng)網(wǎng)絡的三種主要方法：

初步方法- 向我們展示訓練模型整體結構的簡單方法。這些方法包括打印出神經(jīng)網(wǎng)絡各層的形狀或濾波器以及各層的參數(shù)。

基于激活的方法- 在這些方法中，我們解碼單個神經(jīng)元或一組神經(jīng)元的激活情況，以直觀地了解它們在做什么

基于梯度的方法- 這些方法傾向于在訓練模型時操作由前向和后向傳遞形成的梯度(包括顯著性映射和類激活映射)。

有許多有用的工具可以可視化單個層的激活和連接，比如ConX和Tensorboard。

使用ConX生成的動態(tài)呈現(xiàn)可視化示例

4. 參數(shù)診斷

神經(jīng)網(wǎng)絡有大量的參數(shù)相互作用，使得優(yōu)化變得困難。請注意，這是一個活躍的研究領域，所以下面的建議只是簡單的出發(fā)點。

Batch size- 你希望batch size足夠大，能夠準確地估計錯誤梯度，但又足夠小，以便小批隨機梯度下降(SGD)能夠使你的網(wǎng)絡歸一化。小的batch size將導致學習過程以訓練過程中的噪聲為代價快速收斂，并可能導致優(yōu)化困難。論文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima描述了：

在實踐中已經(jīng)觀察到，當使用一個較大的batch size時，模型的質(zhì)量會下降，這可以通過它的泛化能力來衡量。我們研究了在大批量情況下泛化下降的原因，并給出了支持large-batch方法趨向于收斂于訓練和測試函數(shù)的sharp的極小值這一觀點的數(shù)值證據(jù)——眾所周知，sharp的極小值導致較差的泛化。相比之下，小batch size的方法始終收斂于平坦的最小值，我們的實驗支持一個普遍的觀點，即這是由于梯度估計中的固有噪聲造成的。

學習速率- 學習率過低將導致收斂速度慢或陷入局部最小值的風險，而學習速率過大導致優(yōu)化分歧，因為你有跳過損失函數(shù)的更深但是更窄部分的風險。考慮將學習率策略也納入其中，以隨著訓練的進展降低學習率。CS231n課程有一大部分是關于實現(xiàn)退火學習率的不同技術。

梯度裁剪- 在反向傳播期間的通過最大值或最大范數(shù)對梯度進行裁剪。對于處理可能在上面的步驟3中遇到的任何梯度爆炸非常有用。

Batch normalization- Batch normalization用于對每一層的輸入進行歸一化，以解決內(nèi)部協(xié)變量移位問題。如果你同時使用Dropout和Batch Norm，請確保在Dropout上閱讀下面的要點。

本文來自Dishank Bansal的”TensorFlow中batch norm的陷阱和訓練網(wǎng)絡的健康檢查“，里面包括了很多使用batch norm的常見錯誤。

隨機梯度下降(SGD)- 有幾種使用動量，自適應學習率的SGD，和Nesterov相比并沒有訓練和泛化性能上的優(yōu)勝者。一個推薦的起點是Adam或使用Nesterov動量的純SGD。

正則化- 正則化對于構建可泛化模型至關重要，因為它增加了模型復雜度或極端參數(shù)值的代價。它顯著降低了模型的方差，而沒有顯著增加其偏差。如CS231n課程所述：

通常情況下，損失函數(shù)是數(shù)據(jù)損失和正則化損失的總和(例如L2對權重的懲罰)。需要注意的一個危險是正則化損失可能會超過數(shù)據(jù)損失，在這種情況下，梯度將主要來自正則化項(它通常有一個簡單得多的梯度表達式)。這可能會掩蓋數(shù)據(jù)損失的梯度的不正確實現(xiàn)。

為了檢查這個問題，應該關閉正則化并獨立檢查數(shù)據(jù)損失的梯度。

Dropout- Dropout是另一種正則化你的網(wǎng)絡，防止過擬合的技術。在訓練過程中，只有保持神經(jīng)元以一定的概率p(超參數(shù))活動，否則將其設置為零。因此，網(wǎng)絡必須在每個訓練批中使用不同的參數(shù)子集，這減少了特定參數(shù)的變化成為主導。

這里需要注意的是：如果您同時使用dropout和批處理規(guī)范化(batch norm)，那么要注意這些操作的順序，甚至要同時使用它們。這仍然是一個活躍的研究領域，但你可以看到最新的討論：

來自Stackoverflow的用戶MiloMinderBinder：Dropout是為了完全阻斷某些神經(jīng)元的信息，以確保神經(jīng)元不相互適應。因此，batch norm必須在dropout之后進行，否則你將通過標準化統(tǒng)計之后的數(shù)據(jù)傳遞信息。”

來自arXiv：Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift — 從理論上講，我們發(fā)現(xiàn)，當我們將網(wǎng)絡狀態(tài)從訓練狀態(tài)轉移到測試狀態(tài)時，Dropout會改變特定神經(jīng)單元的方差。但是BN在測試階段會保持其統(tǒng)計方差，這是在整個學習過程中積累的。當在BN之前的使用Dropout時，該方差的不一致性(我們將此方案命名為“方差漂移”)導致不穩(wěn)定的推斷數(shù)值行為，最終導致更多的錯誤預測。

5. 跟蹤你的網(wǎng)絡

你很容易忽視記錄實驗的重要性，直到你忘記你使用的學習率或分類權重。通過更好的跟蹤，你可以輕松地回顧和重現(xiàn)以前的實驗，以減少重復的工作(也就是說，遇到相同的錯誤)。

然而，手工記錄信息對于多個實驗來說是很困難的。工具如Comet.ml可以幫助自動跟蹤數(shù)據(jù)集、代碼更改、實驗歷史和生產(chǎn)模型(這包括關于模型的關鍵信息，如超參數(shù)、模型性能指標和環(huán)境細節(jié))。

你的神經(jīng)網(wǎng)絡對數(shù)據(jù)、參數(shù)甚至版本中的細微變化都非常敏感，這會導致模型性能的下降。跟蹤你的工作是開始標準化你的環(huán)境和建模工作流的第一步。

機器學習模型切實可行的優(yōu)化步驟

快速回顧

我們希望這篇文章為調(diào)試神經(jīng)網(wǎng)絡提供了一個堅實的起點。要總結要點，你應該：

從簡單的開始— 先建立一個更簡單的模型，然后通過對幾個數(shù)據(jù)點的訓練進行測試

確認您的損失— 檢查是否使用正確的損失，并檢查初始損失

檢查中間輸出和連接— 使用梯度檢查和可視化檢查看圖層是否正確連接，以及梯度是否如預期的那樣更新

診斷參數(shù)— 從SGD到學習率，確定正確的組合(或找出錯誤的)

跟蹤您的工作— 作為基線，跟蹤你的實驗過程和關鍵的建模組件

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關注

關注
42

文章
4807

瀏覽量
102772
機器學習

機器學習

+關注

關注
66

文章
8492

瀏覽量
134087

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

機器學習模型切實可行的優(yōu)化步驟

評論