在6月的1400多篇機(jī)器學(xué)習(xí)相關(guān)的文章/項(xiàng)目中,Mybridge甄選了10篇最熱文章(入選率0.7%)。主題包括:Google Duplex,網(wǎng)格單元,神經(jīng)網(wǎng)絡(luò),TensorFlow,Keras,第一名解決方案,CVPR 2018等。
在 5 月的1400多篇機(jī)器學(xué)習(xí)相關(guān)的文章/項(xiàng)目中,Mybridge甄選了10篇最熱文章(入選率0.7%)。
此列表中的主題:Google Duplex,網(wǎng)格單元,神經(jīng)網(wǎng)絡(luò),TensorFlow,Keras,第一名解決方案,CVPR 2018等。
Top 10文章由Mybridge AI選出,綜合考慮文章分享數(shù)量、閱讀時(shí)間等,并使用機(jī)器學(xué)習(xí)算法對文章進(jìn)行排序。相信這些文章分享的機(jī)器學(xué)習(xí)經(jīng)驗(yàn)和技巧是有用的。
1. Google Duplex:一個(gè)通過電話完成真實(shí)世界任務(wù)的AI系統(tǒng)
5月份最受關(guān)注的是谷歌在I/O大會(huì)演示的Google Assistant的新功能——Duplex雙工技術(shù)。
利用Duplex雙工技術(shù),谷歌的智能助理能用非常類似人聲的角色完成真實(shí)世界的任務(wù)。在demo中,谷歌CEO Pichai告訴聽眾,“你將要聽到的是,谷歌的助理實(shí)際地打電話給一家真實(shí)的美容院,為你安排一個(gè)預(yù)約。”當(dāng)然,智能助理幾乎毫無破綻地完成了任務(wù)。雖然后來這個(gè)演示是否真實(shí)受到一些質(zhì)疑,但這一技術(shù)引發(fā)了業(yè)界熱議。
在這篇文章中,谷歌首席工程師Yaniv Leviathan和工程副總裁Yossi Matias詳細(xì)介紹了Google Duplex使用到的技術(shù),包括:
Duplex的核心是一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),使用TensorFlow Extended(TFX)構(gòu)建。
使用谷歌自己的自動(dòng)語音識別(ASR)技術(shù)來處理語音,將語音轉(zhuǎn)換為文本。
使用連續(xù)文本到語音(TTS)引擎和綜合TTS引擎(使用Tacotron和WaveNet)的組合,根據(jù)情況控制語調(diào)。
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
2. “換臉術(shù)”Deep Video Portraits
Deep Video Portraits是斯坦福大學(xué)、慕尼黑技術(shù)大學(xué)等的研究人員提交給今年8月SIGGRAPH大會(huì)的一篇論文,描述了一種經(jīng)過改進(jìn)的“換臉”技術(shù),可以在視頻中用一個(gè)人的臉再現(xiàn)另一人臉部的動(dòng)作、面部表情和說話口型。
例如,將普通人的臉換成奧巴馬的臉。Deep Video Portraits可以通過一段目標(biāo)人物的視頻(在這里就是奧巴馬),來學(xué)習(xí)構(gòu)成臉部、眉毛、嘴角和背景等的要素以及它們的運(yùn)動(dòng)形式。
論文地址:https://arxiv.org/abs/1805.11714
3.在人工智能體中使用網(wǎng)格表示進(jìn)行導(dǎo)航
雖然AI在圍棋等許多任務(wù)超過了人類,空間導(dǎo)航能力對于人工智能體來說仍然是一個(gè)巨大的挑戰(zhàn)。DeepMind在Nature上發(fā)表的一篇論文引起AI領(lǐng)域和神經(jīng)科學(xué)領(lǐng)域的極大震撼:AI展現(xiàn)出與人腦“網(wǎng)格細(xì)胞”高度一致的空間導(dǎo)航能力。
通過一系列實(shí)驗(yàn)操作,研究人員發(fā)現(xiàn)網(wǎng)格單元對于基于矢量的導(dǎo)航至關(guān)重要。例如,當(dāng)網(wǎng)絡(luò)中的網(wǎng)格單元被掐斷時(shí),agent的導(dǎo)航能力就會(huì)受損,而且對目標(biāo)的距離和方向的判斷等關(guān)鍵指標(biāo)的表示變得不那么準(zhǔn)確。這項(xiàng)發(fā)現(xiàn)有助于AI可解釋性的研究。
地址:https://deepmind.com/blog/grid-cells
4.如何用Python從頭開始構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)
這是一個(gè)入門教程,初學(xué)者可以從這個(gè)教程開始,了解深度學(xué)習(xí)的內(nèi)部運(yùn)作。
神經(jīng)網(wǎng)絡(luò)是什么呢?許多介紹性文章會(huì)將其與大腦進(jìn)行類比,但如果拋開神經(jīng)網(wǎng)絡(luò)和人腦的類比,將其描述為一個(gè)給定的輸入和一個(gè)期望的輸出之間的映射的數(shù)學(xué)函數(shù),會(huì)更好理解。
神經(jīng)網(wǎng)絡(luò)包含以下元素:
一個(gè)輸入層x
任意數(shù)量的隱藏層
一個(gè)輸出層?
每一層之間的一組權(quán)重W和偏差b
每個(gè)隱藏層的激活函數(shù)σ。在這個(gè)教程中,使用Sigmoid激活函數(shù)。
圖:一個(gè)2層神經(jīng)網(wǎng)絡(luò)的架構(gòu)
地址:https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6
5.對Airbnb上的照片進(jìn)行分類
Airbnb為數(shù)百萬的民宿提供了一個(gè)平臺(tái),也因此獲得了一大批民宿的房間細(xì)節(jié)照片和用戶數(shù)據(jù)。在這個(gè)任務(wù)中,Airbnb的數(shù)據(jù)團(tuán)隊(duì)利用計(jì)算機(jī)視覺和深度學(xué)習(xí)對民宿房屋照片進(jìn)行分類。
其目的一方面是將具有相似風(fēng)格的房源聚集到一起,方便用戶瀏覽。另一方面,分類也可以幫助驗(yàn)證房間數(shù)量和房屋信息的準(zhǔn)確性。該團(tuán)隊(duì)表示,利用這些圖片數(shù)據(jù),還將發(fā)掘出更多潛在的信息。
地址:https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3
6. Loc2Vec:用triplet-loss網(wǎng)絡(luò)學(xué)習(xí)位置嵌入
這是一個(gè)以智能手機(jī)的傳感器數(shù)據(jù)作為輸入,例如加速度計(jì)、陀螺儀和位置信息,并從中提取行為洞察的平臺(tái),用于了解用戶的模式,并能夠預(yù)測和解釋事情發(fā)生的原因。
這個(gè)平臺(tái)的一個(gè)重要組成部分是場地映射算法(venue mapping algorithm)。venue mapper的目標(biāo)是弄清楚你要訪問的地點(diǎn)。
地址:http://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks/
7.在瀏覽器中使用TensorFlow.js進(jìn)行實(shí)時(shí)人體姿態(tài)估計(jì)
這是來自TensorFlow博客的教程,與谷歌創(chuàng)意實(shí)驗(yàn)室合作,發(fā)布了TensorFlow.js版本的PoseNet。PoseNet是一個(gè)機(jī)器學(xué)習(xí)模型,可以在瀏覽器中實(shí)時(shí)估計(jì)人體姿態(tài)。
PoseNet可以利用單姿態(tài)或多姿態(tài)算法檢測圖像和視頻中的人物,所有這些都可以在瀏覽器中實(shí)現(xiàn)。
PoseNet的姿態(tài)估計(jì)分兩個(gè)階段進(jìn)行:
將一個(gè)RGB圖像作為輸入,輸入給卷積神經(jīng)網(wǎng)絡(luò)。
利用單姿態(tài)或多姿態(tài)解碼算法解碼來解碼模型輸出中的姿態(tài)、姿態(tài)置信度分?jǐn)?shù)、關(guān)鍵點(diǎn)位置和關(guān)鍵點(diǎn)置信度分?jǐn)?shù)。
PoseNet返回檢測到的每個(gè)人的置信度值以及檢測到的每個(gè)姿勢關(guān)鍵點(diǎn)。
https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5
8.用Keras進(jìn)行多標(biāo)簽分類
這是一個(gè)關(guān)于多標(biāo)簽分類的Keras教程,包括以下4個(gè)部分:
討論多標(biāo)簽分類數(shù)據(jù)集(以及如何快速構(gòu)建自己的分類數(shù)據(jù)集)。
簡要討論SmallerVGGNet,這是將用來實(shí)現(xiàn)多標(biāo)簽分類的Keras神經(jīng)網(wǎng)絡(luò)架構(gòu)。
實(shí)現(xiàn)SmallerVGGNet,并使用多標(biāo)簽分類數(shù)據(jù)集對其進(jìn)行訓(xùn)練。
最后,在示例圖像上測試網(wǎng)絡(luò),并討論一些注意事項(xiàng)
https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras
9.谷歌地標(biāo)檢索挑戰(zhàn)賽:第一名解決方案解讀
四個(gè)月前,谷歌在Kaggle發(fā)布了一項(xiàng)地標(biāo)檢索挑戰(zhàn)賽(Google Landmark Retrieval Challenge),參賽者被要求在所有圖像數(shù)據(jù)集中檢索到含有給定圖像中地標(biāo)的圖片。
這篇文章是第一名團(tuán)隊(duì)的解決方案總結(jié),包括兩個(gè)主要部分:
首先,創(chuàng)建一個(gè)高性能的全局描述符(global descriptor),它可以將數(shù)據(jù)集中的圖像表示為奇異向量(singular vector);
然后,創(chuàng)建一個(gè)高效框架,將這些向量和最可能的圖像匹配,最后提交到積分榜上。
以下是一個(gè)流程圖,每一步都標(biāo)記LB分?jǐn)?shù)。
https://www.kaggle.com/c/landmark-retrieval-challenge/discussion/57855
10.學(xué)會(huì)“夜視”
這是伊利諾伊大學(xué)香檳分校(UIUC)和Intel Labs合作的論文,提出一個(gè)基于端到端訓(xùn)練的用全卷積網(wǎng)絡(luò)進(jìn)行低照度圖像處理的模型。這個(gè)網(wǎng)絡(luò)直接處理原始傳感器數(shù)據(jù),并且基本不使用傳統(tǒng)的圖像處理流程。
兩個(gè)大型新數(shù)據(jù)集
伯克利大學(xué)發(fā)布大型駕駛視頻數(shù)據(jù)集BDD100K
伯克利大學(xué)發(fā)布了BDD100K,這是目前為止最大規(guī)模也是最多樣化的駕駛視頻數(shù)據(jù)集。這些數(shù)據(jù)具有四個(gè)主要特征:大規(guī)模,多樣化,在真實(shí)的街道采集,并帶有時(shí)間信息。利用這個(gè)數(shù)據(jù)集,你還可以參加伯克利在CVPR 2018舉辦的自動(dòng)駕駛競賽。
地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/
骨骼X-ray數(shù)據(jù)集
Andrew Ng帶領(lǐng)的斯坦福大學(xué)ML團(tuán)隊(duì)發(fā)布了一個(gè)目前為止最大規(guī)模的醫(yī)學(xué)影像數(shù)據(jù)集MURA(musculoskeletal radiographs),這個(gè)數(shù)據(jù)集包含4萬多張多角度射線檢測圖像,來自對12173名病人的14863項(xiàng)研究,X光影像包含人體上肢的7個(gè)部分:肘、指、小臂、手、肱、肩、腕。最近,該團(tuán)隊(duì)推出了基于此數(shù)據(jù)集的識別挑戰(zhàn)賽:MURA骨骼X-ray深度學(xué)習(xí)競賽。
-
Google
+關(guān)注
關(guān)注
5文章
1787瀏覽量
58665 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4806瀏覽量
102735 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8490瀏覽量
134067
原文標(biāo)題:5月機(jī)器學(xué)習(xí)TOP 10熱文: Google Duplex,“換臉術(shù)”、網(wǎng)格單元(附文章地址)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
谷歌語音助理服務(wù)新功能:可為用戶整合日常有用信息
Google Assistant搭配Google Duplex技術(shù)就能成為智能音箱霸主
Google Assistant即將登陸Wear OS
沃爾瑪借助Google Assistant來推動(dòng)語音雜貨店的啟動(dòng)
Google Assistant活躍用戶超五億,將推出新功能
使用Google Assistant的燈光監(jiān)控系統(tǒng)

使用Google Assistant監(jiān)控室溫

通過Google Assistant控制燈光

使用Google Assistant的警報(bào)系統(tǒng)

基于Google Assistant的中繼控制

什么是雙工技術(shù)?有哪些雙工方式?

由Google Assistant控制的Jarvis

Google Assistant語音控制開關(guān)

使用Google Assistant控制蜂鳴器

使用Google Assistant和IFTTT控制蜂鳴器

評論