如何估算深度神經網絡的最優學習率（附代碼教程） - 全文

學習率（learning rate）是調整深度神經網絡最重要的超參數之一，本文作者Pavel Surmenok描述了一個簡單而有效的辦法來幫助你找尋合理的學習率。

我正在舊金山大學的 fast.ai 深度學習課程中學習相關知識。目前這門課程還沒有對公眾開放，但是現在網絡上有去年的版本。

學習率如何影響訓練？

深度學習模型通常由隨機梯度下降算法進行訓練。隨機梯度下降算法有許多變形：例如 Adam、RMSProp、Adagrad 等等。這些算法都需要你設置學習率。學習率決定了在一個小批量（mini-batch）中權重在梯度方向要移動多遠。

如果學習率很低，訓練會變得更加可靠，但是優化會耗費較長的時間，因為朝向損失函數最小值的每個步長很小。

如果學習率很高，訓練可能根本不會收斂，甚至會發散。權重的改變量可能非常大，使得優化越過最小值，使得損失函數變得更糟。

訓練應當從相對較大的學習率開始。這是因為在開始時，初始的隨機權重遠離最優值。在訓練過程中，學習率應當下降，以允許細粒度的權重更新。

有很多方式可以為學習率設置初始值。一個簡單的方案就是嘗試一些不同的值，看看哪個值能夠讓損失函數最優，且不損失訓練速度。我們可以從 0.1 這樣的值開始，然后再指數下降學習率，比如 0.01，0.001 等等。當我們以一個很大的學習率開始訓練時，在起初的幾次迭代訓練過程中損失函數可能不會改善，甚至會增大。當我們以一個較小的學習率進行訓練時，損失函數的值會在最初的幾次迭代中從某一時刻開始下降。這個學習率就是我們能用的最大值，任何更大的值都不能讓訓練收斂。不過，這個初始學習率也過大了：它不足以訓練多個 epoch，因為隨著時間的推移網絡將需要更加細粒度的權重更新。因此，開始訓練的合理學習率可能需要降低 1-2 個數量級。

一定有更好的方法

Leslie N. Smith?在 2015 年的論文「Cyclical Learning Rates for Training Neural Networks」的第 3.3 節，描述了一種為神經網絡選擇一系列學習率的強大方法。

訣竅就是從一個低學習率開始訓練網絡，并在每個批次中指數提高學習率。

在每個小批量處理后提升學習率

為每批樣本記錄學習率和訓練損失。然后，根據損失和學習率畫圖。典型情況如下：

一開始，損失下降，然后訓練過程開始發散

首先，學習率較低，損失函數值緩慢改善，然后訓練加速，直到學習速度變得過高導致損失函數值增加：訓練過程發散。

我們需要在圖中找到一個損失函數值降低得最快的點。在這個例子中，當學習率在 0.001 和 0.01 之間，損失函數快速下降。

另一個方式是觀察計算損失函數變化率（也就是損失函數關于迭代次數的導數），然后以學習率為 x 軸，以變化率為 y 軸畫圖。

損失函數的變化率

上圖看起來噪聲太大，讓我們使用簡單移動平均線（SMA）來做平緩化處理。

使用 SMA 平緩化處理后的損失函數變化率

這樣看起來就好多了。在這個圖中，我們需要找到最小值位置?？雌饋恚咏趯W習率為 0.01 這個位置。

實現代碼教程

Jeremy Howard 和他在 USF 數據研究所的團隊開發了 fast.ai。這是一個基于 PyTorch 的高級抽象的深度學習庫。fast.ai 是一個簡單而強大的工具集，可以用于訓練最先進的深度學習模型。Jeremy 在他最新的深度學習課程（）中使用了這個庫。

fast.ai 提供了學習率搜索器的一個實現。你只需要寫幾行代碼就能繪制模型的損失函數-學習率的圖像（來自 GitHub：plot_loss.py）：

# learn is an instance of Learnerclass or one of derived classes like ConvLearner

learn.lr_find()

learn.sched.plot_lr()

庫中并沒有提供代碼繪制損失函數變化率的圖像，但計算起來非常簡單（plot_change_loss.py）：

def plot_loss_change(sched, sma=1, n_skip=20, y_lim=(-0.01,0.01)):

"""

Plots rate of change of the loss function.

Parameters:

sched - learning rate scheduler, an instance of LR_Finder class.

sma - number of batches for simple moving average to smooth out the curve.

n_skip - number of batches to skip on the left.

y_lim - limits for the y axis.

"""

derivatives = [0] * (sma + 1)

for i in range(1 + sma, len(learn.sched.lrs)):

derivative = (learn.sched.losses[i] - learn.sched.losses[i - sma]) / sma

derivatives.append(derivative)

plt.ylabel("d/loss")

plt.xlabel("learning rate (log scale)")

plt.plot(learn.sched.lrs[n_skip:], derivatives[n_skip:])

plt.xscale('log')

plt.ylim(y_lim)

plot_loss_change(learn.sched, sma=20)

請注意：只在訓練之前選擇一次學習率是不夠的。訓練過程中，最優學習率會隨著時間推移而下降。你可以定期重新運行相同的學習率搜索程序，以便在訓練的稍后時間查找學習率。

使用其他庫實現本方案

我還沒有準備好將這種學習率搜索方法應用到諸如 Keras 等其他庫中，但這應該不是什么難事。只需要做到：

多次運行訓練，每次只訓練一個小批量；

在每次分批訓練之后通過乘以一個小的常數的方式增加學習率；

當損失函數值高于先前觀察到的最佳值時，停止程序。（例如，可以將終止條件設置為「當前損失 > *4 最佳損失」）

學習計劃

選擇學習率的初始值只是問題的一部分。另一個需要優化的是學習計劃（learning schedule）：如何在訓練過程中改變學習率。傳統的觀點是，隨著時間推移學習率要越來越低，而且有許多方法進行設置：例如損失函數停止改善時逐步進行學習率退火、指數學習率衰退、余弦退火等。

我上面引用的論文描述了一種循環改變學習率的新方法，它能提升卷積神經網絡在各種圖像分類任務上的性能表現。?

閱讀全文

上一頁 1 2全文

本文導航

第 1 頁：如何估算深度神經網絡的最優學習率（附代碼教程）
第 2 頁：代碼教程

深度學習(119547) 深度學習(119547)
卷積神經網絡(11423) 卷積神經網絡(11423)

淺析深度神經網絡壓縮與加速技術

深度神經網絡是深度學習的一種框架，它是一種具備至少一個隱層的神經網絡。與淺層神經網絡類似

2023-10-11 09:14:33

136

深度學習的神經網絡架構解析

感知器是所有神經網絡中最基本的，也是更復雜的神經網絡的基本組成部分。它只連接一個輸入神經元和一個輸出神經元。

2023-08-31 16:55:50

293

人工神經網絡和bp神經網絡的區別

人工神經網絡和bp神經網絡的區別? 人工神經網絡（Artificial Neural Network, ANN）是一種模仿人腦神經元網絡結構和功能的計算模型，也被稱為神經網絡（Neural

2023-08-22 16:45:18

707

cnn卷積神經網絡簡介 cnn卷積神經網絡代碼

cnn卷積神經網絡簡介 cnn卷積神經網絡代碼卷積神經網絡（Convolutional Neural Network，簡稱CNN）是目前深度學習領域中應用廣泛的一種神經網絡模型。CNN的出現

2023-08-21 17:16:13

291

cnn卷積神經網絡matlab代碼

cnn卷積神經網絡matlab代碼? 卷積神經網絡（Convolutional Neural Network, CNN）是深度學習中一種常用的神經網絡結構，它是通過卷積層、池化層和全連接層等組合而成

2023-08-21 17:15:59

290

卷積神經網絡和深度神經網絡的優缺點卷積神經網絡和深度神經網絡的區別

深度神經網絡是一種基于神經網絡的機器學習算法，其主要特點是由多層神經元構成，可以根據數據自動調整神經元之間的權重，從而實現對大規模數據進行預測和分類。卷積神經網絡是深度神經網絡的一種，主要應用于圖像和視頻處理領域。

2023-08-21 17:07:36

529

卷積神經網絡是什么？卷積神經網絡的工作原理和應用

　　卷積神經網絡(Convolutional Neural Network，CNN)是一種深度學習神經網絡，主要用于圖像和視頻的識別、分類和預測，是計算機視覺領域中應用最廣泛的深度學習算法之一。該網絡模型可以自動從原始數據中學習有用的特征，并將其映射到相應的類別。

2023-08-21 17:03:46

440

卷積神經網絡算法代碼matlab

卷積神經網絡算法代碼matlab 卷積神經網絡（Convolutional Neural Network，CNN）是一種深度學習網絡模型，其特點是具有卷積層（Convolutional Layer

2023-08-21 16:50:11

301

卷積神經網絡算法比其他算法好嗎

卷積神經網絡算法比其他算法好嗎卷積神經網絡（Convolutional Neural Networks, CNN）是一種用于圖像識別和處理等領域的深度學習算法。相對于傳統的圖像識別算法，如SIFT

2023-08-21 16:49:51

186

卷積神經網絡的介紹什么是卷積神經網絡算法

的深度學習算法。CNN模型最早被提出是為了處理圖像，其模型結構中包含卷積層、池化層和全連接層等關鍵技術，經過多個卷積層和池化層的處理，CNN可以提取出圖像中的特征信息，從而對圖像進行分類。一、卷積神經網絡算法卷積神經網絡算法最早起源于圖像處理領域。它是一種深

2023-08-21 16:49:46

276

卷積神經網絡的基本原理卷積神經網絡發展卷積神經網絡三大特點

卷積神經網絡的基本原理卷積神經網絡發展歷程卷積神經網絡三大特點? 卷積神經網絡的基本原理卷積神經網絡（Convolutional Neural Networks，CNN）是深度學習領域

2023-08-21 16:49:39

262

卷積神經網絡如何識別圖像

卷積神經網絡如何識別圖像? 卷積神經網絡（Convolutional Neural Network, CNN）由于其出色的圖像識別能力而成為深度學習的重要組成部分。CNN是一種深度神經網絡，其結構為

2023-08-21 16:49:27

484

卷積神經網絡的工作原理卷積神經網絡通俗解釋

卷積神經網絡的工作原理卷積神經網絡通俗解釋? 卷積神經網絡（Convolutional Neural Network, CNN）是一種眾所周知的深度學習算法，是人工智能領域中最受歡迎的技術之一

2023-08-21 16:49:24

636

卷積神經網絡模型有哪些？卷積神經網絡包括哪幾層內容？

卷積神經網絡模型有哪些？卷積神經網絡包括哪幾層內容？卷積神經網絡（Convolutional Neural Networks，CNN）是深度學習領域中最廣泛應用的模型之一，主要應用于圖像、語音

2023-08-21 16:41:52

374

卷積神經網絡概述卷積神經網絡的特點 cnn卷積神經網絡的優點

卷積神經網絡概述卷積神經網絡的特點 cnn卷積神經網絡的優點? 卷積神經網絡（Convolutional neural network，CNN）是一種基于深度學習技術的神經網絡，由于其出色的性能

2023-08-21 16:41:48

502

卷積神經網絡原理：卷積神經網絡模型和卷積神經網絡算法

卷積神經網絡原理：卷積神經網絡模型和卷積神經網絡算法卷積神經網絡（Convolutional Neural Network，CNN）是一種基于深度學習的人工神經網絡，是深度學習技術的重要應用之

2023-08-17 16:30:30

256

淺析三種主流深度神經網絡

來源：青榴實驗室1、引子深度神經網絡(DNNs)最近在圖像分類或語音識別等復雜機器學習任務中表現出的優異性能令人印象深刻。在本文中，我們將了解深度神經網絡的基礎知識和三個最流行神經網絡：多層神經網絡

2023-05-17 09:59:19

551

淺析三種主流深度神經網絡

來源：青榴實驗室 1、引子深度神經網絡(DNNs)最近在圖像分類或語音識別等復雜機器學習任務中表現出的優異性能令人印象深刻。在本文中，我們將了解深度神經網絡的基礎知識和三個最流行神經網絡：多層

2023-05-15 14:20:01

258

神經網絡教程（李亞非）

源程序　　5.3 Gaussian機　　第6章自組織神經網絡　　6.1 競爭型學習　　6.2 自適應共振理論(ART)模型　　6.3 自組織特征映射(SOM)模型　　6.4 CPN模型　　第7章聯想

2012-03-20 11:32:43

什么是神經網絡？什么是卷積神經網絡？

在介紹卷積神經網絡之前，我們先回顧一下神經網絡的基本知識。就目前而言，神經網絡是深度學習算法的核心，我們所熟知的很多深度學習算法的背后其實都是神經網絡。

2023-02-23 09:14:44

1224

深度學習與圖神經網絡學習分享：CNN經典網絡之-ResNet

深度學習與圖神經網絡學習分享：CNN 經典網絡之-ResNet resnet 又叫深度殘差網絡圖像識別準確率很高，主要作者是國人哦深度網絡的退化問題深度網絡難以訓練，梯度消失，梯度爆炸

2022-10-12 09:54:42

523

深度學習與圖神經網絡學習分享：Transformer

在過去的幾年中，神經網絡的興起與應用成功推動了模式識別和數據挖掘的研究。許多曾經嚴重依賴于手工提取特征的機器學習任務（如目標檢測、機器翻譯和語音識別），如今都已被各種端到端的深度學習范式（例如卷積

2022-09-22 10:16:34

837

深度學習：神經網絡和函數

深度學習是機器學習的一個子集，它使用神經網絡來執行學習和預測。深度學習在各種任務中都表現出了驚人的表現，無論是文本、時間序列還是計算機視覺。

2022-04-07 10:17:05

1186

NVIDIA GPU加快深度神經網絡訓練和推斷

深度學習是推動當前人工智能大趨勢的關鍵技術。在 MATLAB 中可以實現深度學習的數據準備、網絡設計、訓練和部署全流程開發和應用。聯合高性能 NVIDIA GPU 加快深度神經網絡訓練和推斷。

2022-02-18 13:31:44

1525

深度學習中的卷積神經網絡層級分解綜述

隨著深度學習的不斷發展，卷積神經網絡（CNN）在目標檢測與圖像分類中受到研究者的廣泛關注。CNN從 Lenet5網絡發展到深度殘差網絡，其層數不斷增加。基于神經網絡中“深度”的含義，在確保感受野相同

2021-05-19 16:11:00

3小時學習神經網絡與深度學習課件下載

3小時學習神經網絡與深度學習課件下載

2021-04-19 09:36:55

深度神經網絡模型的壓縮和優化綜述

近年來，隨著深度學習的飛速發展，深度神經網絡受到了越來越多的關注，在許多應用領域取得了顯著效果。通常，在較高的計算量下，深度神經網絡的學習能力隨著網絡層深度的増加而不斷提高，因此深度神經網絡在大型

2021-04-12 10:26:59

綜述深度學習的卷積神經網絡模型應用及發展

深度學習是機器學習和人工智能研究的最新趨勢，作為一個十余年來快速發展的嶄新領域，越來越受到研究者的關注。卷積神經網絡（CNN）模型是深度學習模型中最重要的一種經典結構，其性能在近年來深度學習任務上

2021-04-02 15:29:04

神經網絡與深度學習基礎知識

神經網絡絡是有史以來發明的最優美的編程范式之?。在傳統的編程法中，我們告訴計算機做什么，把?問題分成許多?的、精確定義的任務，計算機可以很容易地執?。相?之下，在神經?絡中，我們不告訴計算機如何解決我們的問題。相反，它從觀測數據中學習，找出它??的解決問題的?法。

2021-03-26 09:55:48

神經網絡的方法學習課件免費下載

　　本文檔的主要內容詳細介紹的是神經網絡的方法學習課件免費下載包括了：神經網絡發展史，神經網絡理論基礎，深度神經網絡進展，發展趨勢與展望

2021-03-11 10:10:37

基于深度神經網絡的文本分類分析

卷積神經網絡、循環神經網絡、注意力機制等方法在文本分類中的應用和發展，分析多種典型分類方法的特點和性能，從準確率和運行時間方面對基礎網絡結構進行比較，表明深度神經網絡較傳統機器學習方法在用于文本分類時更具優

2021-03-10 16:56:56

神經網絡與神經網絡控制的學習課件免費下載

本文檔的主要內容詳細介紹的是神經網絡與神經網絡控制的學習課件免費下載包括了:1生物神經元模型，2人工神經元模型，3人工神經網絡模型，4神經網絡的學習方法

2021-01-20 11:20:05

卷積神經網絡的發展歷程及與深度學習的差異

1986年Rumelhart等人提出了人工神經網絡的反向傳播算法，掀起了神經網絡在機器學習中的熱潮，神經網絡中存在大量的參數，存在容易發生過擬合、訓練時間長的缺點，但是對比Boosting

2020-08-24 15:57:52

5030

邊緣計算中深度神經網絡剪枝壓縮的研究

深度神經網絡與其他很多機器學習模型一樣，可分為訓練和推理兩個階段。訓練階段根據數據學習模型中的參數（對神經網絡來說主要是網絡中的權重）；推理階段將新數據輸入模型，經過計算得出結果。

2020-03-27 15:50:17

2576

神經網絡的復習資料免費下載

深度學習（DL）是機器學習中一種基于對數據進行表征學習的方法，是一種能夠模擬出人腦的神經結構的機器學習方法。深度學習的概念源于人工神經網絡的研究。而人工神經網絡ANN（Artificial

2019-09-20 08:00:00

如何提升神經網絡性能

神經網絡是一種在很多用例中能夠提供最優準確率的機器學習算法。但是，很多時候我們構建的神經網絡的準確率可能無法令人滿意，或者無法讓我們在數據科學競賽中拿到領先名次。

2019-05-02 17:10:00

1910

快速了解神經網絡與深度學習的教程資料免費下載

本文檔的詳細介紹的是快速了解神經網絡與深度學習的教程資料免費下載主要內容包括了：機器學習概述，線性模型，前饋神經網絡，卷積神經網絡，循環神經網絡，網絡優化與正則化，記憶與注意力機制，無監督學習，概率圖模型，玻爾茲曼機，深度信念網絡，深度生成模型，深度強化學習

2019-02-11 08:00:00

新書《解析深度學習：卷積神經網絡原理與視覺實踐》試讀

我們知道，深度神經網絡模型復雜的解空間中存在非常多的局部最優解，但經典批處理隨機梯度下降法(mini-batch SGD)只能讓網絡模型收斂到其中一個局部最優解。網絡“快照”集成法(snapshot

2018-11-10 10:23:38

4363

深度學習和神經網絡的學習是什么樣的？

怎樣理解非線性變換和多層網絡后的線性可分，神經網絡的學習就是學習如何利用矩陣的線性變換加激活函數的非線性變換。

2018-10-23 14:44:21

3596

【人工神經網絡基礎】為什么神經網絡選擇了“深度”？

由 Demi 于星期四, 2018-09-06 09:33 發表現在提到“神經網絡”和“深度神經網絡”，會覺得兩者沒有什么區別，神經網絡還能不是“深度”（deep）的嗎？我們常用

2018-09-06 20:48:01

485

《神經網絡和深度學習》中文版電子教材免費下載

《神經網絡和深度學習》是一本免費的在線書。本書會教會你： ? 神經網絡，一種美妙的受生物學啟發的編程范式，可以讓計算機從觀測數據中進行學習 ? 深度學習，一個強有力的用于神經網絡學習的眾多技術的集合

2018-08-02 17:47:31

三種典型的神經網絡以及深度學習中的正則化方法應用于無人駕駛

在前幾十年，神經網絡并沒有受到人們的重視，直到深度學習的出現，人們利用深度學習解決了不少實際問題（即一些落地性質的商業應用），神經網絡才成為學界和工業界關注的一個焦點。本文以盡可能直白，簡單的方式介紹深度學習中三種典型的神經網絡以及深度學習中的正則化方法。為后面在無人駕駛中的應用做鋪墊。

2018-06-03 09:27:03

9082