一、前述
CNN和RNN幾乎占據著深度學習的半壁江山,所以本文將著重講解CNN+RNN的各種組合方式,以及CNN和RNN的對比。
二、CNN與RNN對比
1、CNN卷積神經網絡與RNN遞歸神經網絡直觀圖
2、相同點:
2.1. 傳統神經網絡的擴展。
2.2. 前向計算產生結果,反向計算模型更新。
2.3. 每層神經網絡橫向可以多個神經元共存,縱向可以有多層神經網絡連接。
3、不同點
3.1. CNN空間擴展,神經元與特征卷積;RNN時間擴展,神經元與多個時間輸出計算
3.2. RNN可以用于描述時間上連續狀態的輸出,有記憶功能,CNN用于靜態輸出
3. 3. CNN高級100+深度,RNN深度有限
三、CNN+RNN組合方式
1. CNN 特征提取,用于RNN語句生成圖片標注。
2. RNN特征提取用于CNN內容分類視頻分類。
3. CNN特征提取用于對話問答圖片問答。
四、具體應用
1、圖片標注
基本思路
目標是產生標注的語句,是一個語句生成的任務,LSTM?描述的對象大量圖像信息,圖像信息表達,CNN?CNN網絡中全連接層特征描述圖片,特征與LSTM輸入結合。
具體步驟:
1.1 模型設計-特征提取全連接層特征用來描述原圖片LSTM輸入:word+圖片特征;輸出下一word。
1.2 模型設計-數據準備
1. 圖片CNN特征提取2. 圖片標注生成Word2Vect 向量3. 生成訓練數據:圖片特征+第n單詞向量:第n+1單詞向量。
1.3 模型訓練:
1. 運用遷移學習,CNN特征,語句特征應用已有模型2. 最終的輸出模型是LSTM,訓練過程的參數設定:梯度上限(gradient clipping), 學習率調整(adaptivelearning)3. 訓練時間很長。
1.4 模型運行:
1. CNN特征提取2. CNN 特征+語句開頭,單詞逐個預測
2、視頻行為識別 :
視頻中在發生什么?
2.1常用方法總結:
RNN用于CNN特征融合1. CNN 特征提取2. LSTM判斷3. 多次識別結果分析。
不同的特征不同輸出。
或者:所有特征作為一個輸出。
2.2 RNN用于CNN特征篩選+融合:
1. 并不是所有的視頻 圖像包含確定分類信息2. RNN用于確定哪些frame 是有用的3. 對有用的圖像特征 融合。
2.3 RNN用于,目標檢測:
1. CNN直接產生目標候選區2. LSTM對產生候選區融合(相鄰時刻位置近 似)3. 確定最終的精確位置。
2.4 多種模型綜合:
競賽/應用中,為了產生最好結果,多采用 多模型ensemble形式。
3、圖片/視頻問答
3.1 問題種類
3.2 圖片問答意義
1. 是對純文本語言問答系統的擴展2. 圖片理解和語言處理的深度融合3. 提高人工智能應用范圍-觀察,思考,表達
-
cnn
+關注
關注
3文章
354瀏覽量
22633 -
遷移學習
+關注
關注
0文章
74瀏覽量
5683 -
rnn
+關注
關注
0文章
89瀏覽量
7059
原文標題:深度學習篇——CNN和RNN結合與對比,實例講解
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
TF之CNN:CNN實現mnist數據集預測
遞歸神經網絡(RNN)
CNN和RNN結合與對比,實例講解
一文帶你了解(神經網絡)DNN、CNN、和RNN
CNN與RNN對比 CNN+RNN組合方式
深度分析RNN的模型結構,優缺點以及RNN模型的幾種應用

評論