在當今的數字經濟中,沒有什么資產比數據更有價值。將數據稱為“新石油”已經到了陳詞濫調的地步。正如最近的《經濟學家》雜志標題所說,數據是“世界上最有價值的資源”。
由于數據在推動機器學習和人工智能解決方案中發揮著至關重要的作用,因此今天的數據如此受到高度重視。從Netflix的推薦引擎到Google的無人駕駛汽車,要訓練一個有效運行的AI系統,需要大量的數據。
結果就是對越來越大的數據產生了迷戀。根據流行的智慧,擁有最多數據的他可以構建最好的AI。從IBM到通用電氣的老牌公司都在爭相將自己重新命名為“數據公司”。軟銀的愿景基金(Vision Fund)是世界上最大,最具影響力的技術投資者,這毫不掩飾事實,即尋求初創公司支持的重點是數據資產。用軟銀領導人孫正義(Masayoshi Son)的話說,“那些統治數據的人將統治世界”。
隨著商業和技術界越來越多地將數據定位為最終的制表王,人們對一個重要現實的關注已很少:人工智能的未來可能會大大減少數據密集性。
在人工智能的前沿,正在進行各種努力來開發不需要大量標記數據集的改進形式的AI。這些技術將重塑我們對AI的理解,并以深刻的方式破壞業務格局。行業領導者最好注意。
綜合數據
今天,為了訓練深度學習模型,從業人員必須收集成千上萬,數百萬甚至數十億的數據點。然后,他們必須在每個數據點上粘貼標簽,這是一個昂貴且通常是手動的過程。如果研究人員不需要費力地收集和標記現實世界中的數據,而是可以從頭開始創建他們需要的確切數據集怎么辦?
領先的技術公司(從Nvidia等知名競爭對手到Applied Intuition等初創企業)正在開發方法,以幾乎完全免費的方式完全數字化地制作高保真數據。這些人為創建的數據集可以根據研究人員的確切需求進行定制,并且可以包含數十億種替代方案。
Nvidia仿真技術主管Mike Skolones說:“出去改變現實世界中的照明非常昂貴,而且您無法在室外場景中改變照明。”但是您可以使用綜合數據。
隨著合成數據準確地逼近現實世界數據,它將使人工智能民主化,削弱專有數據資產的競爭優勢。如果一家公司可以通過仿真快速生成數十億英里的真實駕駛數據,那么Waymo投資十年收集的幾百萬英里的真實世界駕駛數據有多有價值?在可以按需廉價地生成數據的世界中,跨行業的競爭動態將被顛覆。
隨著人工智能在未來幾年變得越來越智能,它可能需要更少的數據,而不是更多。
少量學習
與當今的AI不同,人類不需要學習成千上萬的例子就可以學習新概念。正如Google一項頗具影響力的研究論文所說:“一個孩子可以從一本書中的一張照片中概括出“長頸鹿”的概念,但是我們最好的深度學習系統需要成百上千個示例。
為了使機器智能真正發揮其功能,它應該能夠從少數示例中學習和推理人類的行為。這是AI中一個重要領域的目標,即“少數學習”。
鮮為人知的學習取得了令人興奮的最新進展,特別是在計算機視覺領域。(當僅使用一個或零個數據點時,該技術分別稱為“單次學習”或“零次學習”。)研究人員已經開發了可以在適當情況下實現最新性能的AI模型。基于一個或幾個數據點的面部識別等任務。
目前,這些進步仍主要局限于學術界。但是,隨著小數據方法在未來幾年中從學術界轉移到商業化生產,它們將從根本上改變AI的完成方式,從而侵蝕大數據資產在此過程中的重要性。
深度學習先驅,谷歌和百度前AI負責人安德魯·吳(Andrew Ng)解釋說:“如果在智能手機上進行外觀檢查,則不會有一百萬張刮擦智能手機的照片。”“如果只用100或10張圖像就可以工作,那么它將打破許多新的應用程序。”
強化學習
在不需要大量實際數據的情況下取得重要進步的最終AI方法是強化學習。
在強化學習中,一個AI模型不是通過蠻力數據攝取而是通過自我指導的反復試驗來學習:讓模型在給定的環境中嘗試不同的動作是放任的,并且在收到關于哪個模型的反饋時逐漸優化其行為行動是有利的,而不是。
強化學習助長了AI突破,這是近年來獲得最廣泛宣傳的突破之一:DeepMind在古老的Go游戲中擊敗了世界上最好的人類玩家。
DeepMind的原始模型AlphaGo通過結合歷史數據和強化學習來學習游戲。但是真正的非凡成就來自更復雜的后繼者AlphaGo Zero。除了游戲規則外,AlphaGo Zero絕對沒有任何先驗數據。沒有其他輸入,僅通過與自己的對戰,AlphaGo Zero就比任何人或機器都更了解Go的游戲:它擊敗了最初的AlphaGo 100-0。
“專家數據集通常很昂貴,不可靠或根本不可用,”AlphaGo Zero團隊解釋道。“相比之下,強化學習系統是根據自身的經驗進行培訓的,原則上可以使它們超越人類的能力,并可以在缺乏人類專業知識的領域中運作。”
除棋盤游戲外,強化學習正在機器人,化學工程,廣告等領域找到實際應用。強化學習代表了AI中的一種新穎方法:與其不需要大量的預先存在的數據集,它還可以生成自己的數據,并隨著時間的流逝而學習。隨著它進入商業應用,強化學習將代表對大數據正統觀念的又一挑戰。
結論
人工智能的世界在不斷變化。隨著該領域的前沿技術飛速發展,當今最前沿的方法論可能會在明天過時。
目前,最主要的AI范例是深度學習,它依賴于多達數十億的標記數據點來訓練神經網絡識別模式并做出預測。由于神經網絡非常渴望數據,因此業務和技術領導者已沉迷于積累最大的數據集,希望數據將成為AI驅動世界中最終的競爭優勢。
但是深度學習是AI漫長道路上的一個終點,而不是其最終目標。將當今的神經網絡的海量數據需求作為長期業務戰略的基礎,是無法理解未來AI的未來范式轉變。合成數據,快速學習和強化學習等領域的最新進展表明,隨著AI在未來幾年變得越來越智能,它可能需要更少的數據,而不是更多。
這些新范例將重塑AI格局,并重新定義公司競爭的條件。對于有遠見的商人和技術人員來說,這將是一個巨大的機會。
-
機器學習
+關注
關注
66文章
8502瀏覽量
134589 -
數據集
+關注
關注
4文章
1224瀏覽量
25445 -
數字經濟
+關注
關注
2文章
1104瀏覽量
18875
發布評論請先 登錄
評論