來源:智源社區(qū)
近日,吳恩達在圣誕節(jié)的《The Batch》特刊上發(fā)布了一年一度的年終盤點。在過去的一年,生成式AI迎來爆發(fā)式增長,由人工智能生成的圖片在社交平臺瘋狂傳播,引發(fā)大量爭議的同時也推動了投資;視覺 Transformer(ViT) 的工作也出現(xiàn)爆炸性增長,在過去一年中,研究人員共計發(fā)表超過 17,000 篇 ViT 論文;AlphaCode、Codex 等的推出便利了開發(fā)者,大受歡迎;與此同時,研究人員也在不斷拓寬語言模型的邊界,在解決可信度、偏見和實時性等問題方面做出持續(xù)不斷的努力。
親愛的朋友們:
隨著寒假的臨近,我突然想到,我們不是在面對人工智能的冬天,而是在一個人工智能炙熱的夏天。
今天,人工智能創(chuàng)造的絕大多數(shù)經(jīng)濟價值都來自監(jiān)督式學(xué)習(xí)工具,經(jīng)過訓(xùn)練能夠生成簡短的標(biāo)簽(如判斷垃圾郵件/非垃圾郵件)或一系列標(biāo)簽(如一段音頻的文本)。今年,建立在監(jiān)督式學(xué)習(xí)之上的生成式成為第二個主要工具,使人工智能能夠生成復(fù)雜且引人注目的圖像或文本段落。
以往開發(fā)重要新工具(例如強化學(xué)習(xí))的一些嘗試,尚未取得與其鋪天蓋地的宣傳相稱的成果。但是生成式AI做得很好,它為人工智能應(yīng)用創(chuàng)造了一個新的范式。
而且監(jiān)督學(xué)習(xí)還遠遠沒有發(fā)揮出它的全部潛力!依靠監(jiān)督學(xué)習(xí),仍然有數(shù)以百萬計的的應(yīng)用有待開發(fā)。許多團隊仍然在試圖找出通過監(jiān)督學(xué)習(xí)開發(fā)產(chǎn)品的最佳實踐。
未來,我期待著繼續(xù)與生成式AI共舞,為每個人創(chuàng)造大量的價值。我感到很幸運能活在這個時代,科技飛速發(fā)展,我們有機會一起創(chuàng)造未來!能與我的家人和你們分享這個世界,我感到倍加幸運。
節(jié)日快樂,
Andrew
2022:人工智能閃耀的一年
節(jié)日將近,人們也許正一邊手捧著一杯熱可可,一邊催促 ChatGPT 建議節(jié)日禮物。這個特殊的時刻,讓我們回顧這一年人工智能所取得的巨大進步。能夠生成類人的文本、圖像和代碼的系統(tǒng)(視頻和音樂也即將推出)讓用戶倍感驚喜,盡管有人對創(chuàng)造力的未來提出了質(zhì)疑。 這一年,解碼化學(xué)和物理學(xué)的模型推動了科學(xué)發(fā)現(xiàn),同時政府則采取行動推動專用微處理器的供應(yīng),使這種創(chuàng)新成為可能。這些科技發(fā)展讓我們震驚的同時,在這期《 The Batch 》特刊中,我們將著重回顧人工智能在2022年創(chuàng)造的奇跡。
合成圖像遍天下
大事件: 新一代的文生圖工具激發(fā)了大量的實驗,將文本描述轉(zhuǎn)化為迷人的藝術(shù)作品和照片,引發(fā)超現(xiàn)實主義的幻想。商業(yè)企業(yè)迅速將這項技術(shù)投入使用,使圖像生成成為創(chuàng)建和編輯圖形軟件的必備功能。
背后的驅(qū)動力:由于友好的用戶界面、具有高度娛樂性的輸出以及開放的 API 和模型,能夠生成文字和圖像的模型成為人工智能的公眾名片。
- OpenAI 在四月份推出了 DALL-E 2。超過150萬用戶測試了這個模型,今年9月,公司將它推向了市場。微軟為 OpenAI 提供資金,以換取其作品的獨家商業(yè)版權(quán),并將該模式整合到 Azure AI-as-a-service 平臺中。
- 7月,只需操作按鈕的藝術(shù)家們用簡單的 Craiyon 制作的相對粗糙的圖片,這些圖片在社交平臺上隨處可見。
- Stability AI很快就加大了賭注,推出了開源的擴散模型(Stable Diffusion),最終吸引了超過1億美元的新資金。擴散模型于去年11月升級到2.0版。
- Adobe、Getty Images 和 Shutterstock 將圖像生成模型集成到他們自己的產(chǎn)品和服務(wù)中。
- 這些應(yīng)用根據(jù)給出的文本提示(prompt)會產(chǎn)生截然不同的結(jié)果。PromptBase 為生成有趣輸出的文本字符串打開了一個市場。
缺點:這樣的模特是在從網(wǎng)上搜刮來的圖像上訓(xùn)練的。像大型語言模型一樣,他們繼承了嵌入在網(wǎng)絡(luò)內(nèi)容中的偏見,可能會模仿煽動性的表達風(fēng)格。
Lensa AI 是一款照片編輯應(yīng)用程序,可以根據(jù)用戶的自拍生成藝術(shù)化身,它登上了app商店排行榜的榜首。它的成功帶來了一定程度的爭議,因為用戶,尤其是女性,發(fā)現(xiàn)這個app使她們的圖片變得更加性感。
視覺藝術(shù)家在線社區(qū) ArtStation 推出了自己的“文字到圖像”功能。許多藝術(shù)家感到受到電腦程序的威脅,這些程序可以在幾秒鐘內(nèi)復(fù)制藝術(shù)家來之不易的個人風(fēng)格,因此開始抵制該網(wǎng)站。
新聞背后: 擴散模型經(jīng)過一系列步驟有選擇地去噪來產(chǎn)生輸出。加州大學(xué)伯克利分校和斯坦福大學(xué)的研究人員于2015年引入了這一技術(shù),在此之后的幾年里,他們一直處于幕后,直到最近的研究表明,他們能夠制作出與生成性對抗網(wǎng)絡(luò)(GAN)輸出相競爭的圖像。Stability AI 把擴散模型放在核心位置。DALL-E 初始版本基于GAN,OpenAI在大約同一時間用擴散模型對其進行了更新。
現(xiàn)狀:來年將迎來一場計算機輔助創(chuàng)造力的革命。生成圖像的風(fēng)潮不會止步于圖片。谷歌和 Meta 今年發(fā)布了令人印象深刻的文本到視頻模型,而 OpenAI 將文本到 3D物體的生成速度提高到了一個新高度。
軟件項目進度落后?有個軟件可以幫你。
大事件:事實證明,經(jīng)過計算機代碼微調(diào)的語言模型能夠生成類似于經(jīng)驗豐富的開發(fā)人員編寫的軟件例程ーー盡管結(jié)果可能是偶然的。背后的驅(qū)動力:人工智能驅(qū)動的代碼生成器進入了大公司,甚至小規(guī)模公司的開發(fā)人員(和非開發(fā)人員)也可以訪問它們。
- 今年年初,Ebay 將低代碼工具交到非工程師手中,使他們能夠在沒有人工智能或機器學(xué)習(xí)知識的情況下構(gòu)建和部署模型。
- 今年 2 月,DeepMind 推出了 AlphaCode,這是一款用 12 種編程語言對 8600 萬個程序進行預(yù)訓(xùn)練的 Transformer,并針對編碼競賽的內(nèi)容進行了微調(diào)。通過推理,它產(chǎn)生了一百萬種可能的解決方案,并過濾掉了不佳的解決方案。通過這種方式,它在 10 次編程競賽中擊敗了一半以上的參賽者。
今年 6 月,GitHub 開放了 Copilot 的訪問權(quán)限,這是一個能夠?qū)崟r提供代碼建議的自動完成系統(tǒng)。雖然學(xué)生和經(jīng)過驗證的開源開發(fā)者可以免費訪問,但用戶需要支付訂閱費。
新聞背后:OpenAI 的 GPT-3語言模型的用戶表明,它最早可以在 2020 年中期生成工作代碼。一年后,OpenAI 推出了一個經(jīng)過微調(diào)的版本,名為 Codex,它是 GitHub 的 Copilot 的基礎(chǔ)。
缺點:這種技術(shù)的廣泛使用的版本還不能編寫復(fù)雜的程序。通常乍一看,它們的輸出看起來是正確的,但實際上卻存在錯誤。此外,它們的法律地位可能還有待商榷。一項針對 GitHub、 OpenAI 和微軟的集體訴訟聲稱,Codex 的訓(xùn)練違反了開源許可協(xié)議。這一結(jié)果可能會對生成文本、圖像和其它媒體數(shù)據(jù)的模型產(chǎn)生法律影響。現(xiàn)狀:人工智能驅(qū)動的編程工具不太可能在不久的將來取代人類程序員,但它們可能會取代技術(shù)問答網(wǎng)站 Stack Overflow,成為開發(fā)人員最依賴的輔助工具。
人工智能之眼進化
視覺 Transformer(ViT) 的工作在 2022 年出現(xiàn)爆炸性增長。大事件:在這一年中,研究人員發(fā)表了超過 17,000 篇 ViT 論文。其中一個主題是: 將自注意力和卷積結(jié)合起來。背后的驅(qū)動力:谷歌大腦的一個團隊在 2020 年引入了視覺 Transformer 。從此,視覺 Transformer 的架構(gòu)經(jīng)歷了不斷的改進。一系列最近的工作使 ViT 適應(yīng)新的任務(wù)并解決其缺點。
- 用海量數(shù)據(jù)訓(xùn)練 ViT 可以得到最好的性能,因此 Meta 和索邦大學(xué)的研究人員專注于提高 ViT 在包含數(shù)百萬條數(shù)據(jù)的數(shù)據(jù)集上的性能。他們利用 Transformer 特有的已建立的程序(如數(shù)據(jù)增強和模型正則化)的適配來提高模型性能。
- Inha 大學(xué)的研究人員修改了兩個關(guān)鍵部件,使得 ViT與卷積神經(jīng)網(wǎng)絡(luò)更相似。首先,他們將圖像分割成重疊更多的圖塊(patch)。其次,他們修改了自注意力機制,使其關(guān)注與圖塊相鄰的圖塊,而不是圖塊本身,并使其能夠?qū)W習(xí)是否更均勻或更有選擇性地權(quán)衡相鄰的圖塊。這些修改極大地提高了精度。
印度理工學(xué)院孟買校區(qū)的研究人員為 ViT 配備了卷積層。由于重量共享機制,卷積帶來了像素的局部處理和更小的內(nèi)存占用等好處。在精度和速度方面,他們的卷積 ViT 優(yōu)于普通的 ViT 和運行時優(yōu)化的 Transformer(如 Performer,Nystr?former 和線性 Transformer)。其他團隊采取了類似的方法。
新聞背后:盡管許多 ViT 研究旨在超越并最終取代卷積神經(jīng)網(wǎng)絡(luò)(CNN) ,但更有力的趨勢是將二者結(jié)合起來。ViT 的優(yōu)勢在于它能夠在小尺度和大尺度上考慮圖像中所有像素之間的關(guān)系。但這種模型的一個缺點是,它需要通過額外的訓(xùn)練來學(xué)習(xí)隨機初始化后融入 CNN 架構(gòu)的方法。CNN 的局部上下文窗口(只考慮局部像素問題)和權(quán)重共享(使它能夠以相同的方式處理不同的圖像位置)幫助 Transformer 利用更少的數(shù)據(jù)中學(xué)習(xí)更多。
現(xiàn)狀:在過去的一年中,視覺 Transformer 的應(yīng)用范圍擴大了。ViT 可以生成逼真的連續(xù)視頻幀,利用 2D 圖像序列生成3D 場景,并在點云中檢測目標(biāo)。很難想象在沒有 ViT 的情況下,最近研究者們能夠取得基于擴散模型的文本到圖像生成器的進展。
語言模型持續(xù)擴展
研究人員推動了語言模型的邊界,以解決可信度、偏見和可更新性等持續(xù)存在的問題。
大事件: 許多人工智能實驗室的目標(biāo)是通過改進數(shù)據(jù)集和訓(xùn)練方法(包括訓(xùn)練 Transformer 翻譯1000 種語言的方法)使大規(guī)模語言模型更加復(fù)雜,而其它實驗室則擴展了模型架構(gòu),以搜索 Web 網(wǎng)頁、查閱外部文檔和適應(yīng)新信息。背后的驅(qū)動力: 語言模型產(chǎn)生似是而非的文本的能力超過了它們辨別事實、避免編造幻想和表達社會偏見的能力。研究人員致力于使他們的研究結(jié)果更加可靠,而不是那么具有煽動性。
- 2021 年底,DeepMind 提出了 RETRO 模型,該模型可以從 MassiveText 數(shù)據(jù)集中檢索段落,并將其整合到輸出中。
- AI21 實驗室春季發(fā)布的 Jurassic -X 引入了一系列模塊——包括一個計算單元和一個查詢維基百科的系統(tǒng)——利用事實核查語言模型對數(shù)學(xué)問題、歷史事實等的答案。
- 斯坦福大學(xué)和洛桑聯(lián)邦理工學(xué)院的研究人員創(chuàng)建了 SERAC 系統(tǒng),該系統(tǒng)可以用新的信息更新語言模型,而無需重新訓(xùn)練它們。他們使用單獨的系統(tǒng)存儲新數(shù)據(jù),學(xué)習(xí)為與該數(shù)據(jù)相關(guān)的查詢提供輸出。
- Meta 構(gòu)建了語言模型 Atlas,通過從文檔數(shù)據(jù)庫中檢索信息來回答問題。8 月份發(fā)布后,這一方法使 110 億參數(shù)的 Atlas 在回答問題時的表現(xiàn)超過了具有 5400 億參數(shù)的 PaLM。
- 今年晚些時候,OpenAI 對 ChatGPT 進行了微調(diào),從而最小化不真實、有偏見或有害的輸出。人類對模型的訓(xùn)練數(shù)據(jù)質(zhì)量進行排名,然后用強化學(xué)習(xí)算法對模型產(chǎn)生的輸出給出獎勵,這些輸出與排名靠前的輸出類似。
這些技術(shù)發(fā)展加強了對語言評測基準(zhǔn)的需求,從而評估更多樣化和微妙的能力。為此,超過130 個機構(gòu)合作開發(fā)了“BIG-bench”,它包括根據(jù)表情符號推斷電影名稱、參與模擬審查以及檢測邏輯謬誤等任務(wù)。
新聞背后: 進展過程并非一帆風(fēng)順。Meta 公開演示的 Galactica 語言模型,被訓(xùn)練用于生成科學(xué)和技術(shù)主題的文本。在 11 月份上線三天后,開發(fā)者因為它容易生成虛假信息和引用不存在的信息來源而停止演示。今年 8 月,同樣來自 Meta 的聊天機器人 BlenderBot 3 很快就因滔滔不絕的種族主義成見和陰謀論而飽受爭議。現(xiàn)狀: 在過去的一年中,文本生成中考慮生成結(jié)果真實、得體的工具箱大幅度增長。成功的技術(shù)將在未來的某項“爆款”模型引發(fā)的浪潮中找到前進的道路。
全能模型
大事件:某些多任務(wù)深度學(xué)習(xí)模型在數(shù)百個任務(wù)中證明了它們所向披靡。多任務(wù)模型的范疇在過去的一年里急劇擴大。
背后驅(qū)動力:研究人員推動了神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)技能數(shù)量的極限。他們的靈感來自于大規(guī)模語言模型的新興技能ーー比如,在不調(diào)整架構(gòu)的情況下創(chuàng)作詩歌和編寫計算機程序的能力ーー以及經(jīng)過文本和圖像訓(xùn)練的模型找到不同數(shù)據(jù)類型之間對應(yīng)關(guān)系的能力。
今年春天,谷歌的 PalM在涉及語言理解和生成的數(shù)百項小樣本學(xué)習(xí)任務(wù)中取得了目前最優(yōu)的結(jié)果。在某些情況下,它的表現(xiàn)優(yōu)于經(jīng)過微調(diào)的模型或人類的平均表現(xiàn)。
不久后,DeepMind 推出了一款名為 Gato 的 Transformer 模型,它學(xué)會了完成 600 多種不同的任務(wù)ーー玩 Atari 游戲、用機器臂堆積木、生成圖片描述等等ーー盡管不一定比專門用于這些任務(wù)的獨立模型更好。該系統(tǒng)同時接受了多種數(shù)據(jù)集的監(jiān)督訓(xùn)練(從文本、圖像到強化學(xué)習(xí)智能體生成的動作等)。
- 隨著這一年接近尾聲,谷歌研究人員也將類似的能力引入了機器人領(lǐng)域。RT-1 是一種使機器人能夠執(zhí)行超過 700 項任務(wù)的 Transformer模型。該系統(tǒng)對動作和圖像進行詞例化,利用近一年半的機器人隊伍收集的 130,000 個 episode 構(gòu)成的數(shù)據(jù)集學(xué)習(xí)。與先前的技術(shù)相比,它在新的任務(wù)、環(huán)境和對象中取得了出色性能。
新聞背后: 歐盟擬議的 AI 法案的最新草案可能在 2023 年成為法律,該草案將要求通用 AI 系統(tǒng)的用戶向當(dāng)局注冊,評估其系統(tǒng)的潛在的誤用可能,并進行定期審計。草案將通用系統(tǒng)定義為那些“執(zhí)行通用功能的系統(tǒng),如圖像/語音識別、音頻/視頻生成、模式檢測、問答、翻譯等”,并且能夠“具有多種預(yù)期和非預(yù)期目的”,一些觀察家批評該定義過于寬泛。新出現(xiàn)的真正通用的模型可能促使監(jiān)管機構(gòu)收緊其定義。
現(xiàn)狀: 我們?nèi)匀惶幱跇?gòu)建算法的早期階段,這些算法可以泛化到數(shù)百個不同的任務(wù)上。這一年的進展表明,深度學(xué)習(xí)有潛力幫助我們實現(xiàn)這一目標(biāo)。
-
AI
+關(guān)注
關(guān)注
88文章
35109瀏覽量
279587 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249348 -
生成式AI
+關(guān)注
關(guān)注
0文章
531瀏覽量
812
發(fā)布評論請先 登錄
谷歌新一代生成式AI媒體模型登陸Vertex AI平臺
聚云科技獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證 助力企業(yè)加速生成式AI應(yīng)用落地
生成式AI工具好用嗎
NVIDIA推出多個生成式AI模型和藍圖
Google兩款先進生成式AI模型登陸Vertex AI平臺
NVIDIA推出全新生成式AI模型Fugatto
在設(shè)備上利用AI Edge Torch生成式API部署自定義大語言模型

生成式AI工具作用
AI大模型的最新研究進展
NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

評論