女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI下個(gè)大突破之前奏:研究人員正在教大型語(yǔ)言模型

hl5C_deeptechch ? 來(lái)源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2022-07-10 15:25 ? 次閱讀

GPT-3 自動(dòng)生成的語(yǔ)言竟然能和人類差不多,堪稱奇跡。但在很大程度上,GPT-3 也不過(guò)是個(gè)噱頭。判斷方法也很簡(jiǎn)單。若提問(wèn) GPT-3:羊是什么顏色?它會(huì)說(shuō) “白色 ”,還會(huì)說(shuō) “黑色 ”, 頻次一樣高。因?yàn)橛⒄Z(yǔ)里有 “black sheep”(黑羊,引申意為害群之馬)。

這就是語(yǔ)言模型的問(wèn)題。只用文本訓(xùn)練語(yǔ)言模型,會(huì)導(dǎo)致模型缺乏常識(shí)。不過(guò),為了改變這種狀況,北卡羅來(lái)納大學(xué)教堂山分校(下文簡(jiǎn)稱 UNC)的學(xué)者莫希特?班薩爾和其博士生譚昊研發(fā)了一種新技術(shù),研究人員稱其為為 “視覺(jué)監(jiān)督(vokenization)”,如此,GPT-3 等語(yǔ)言模型便能具備 “看 ” 的功能。

將語(yǔ)言模型與計(jì)算機(jī)視覺(jué)結(jié)合起來(lái)并不新鮮,該人工智能研究領(lǐng)域其實(shí)正在快速發(fā)展。出發(fā)點(diǎn)是這兩種類型都有不同的優(yōu)勢(shì)。GPT-3 等語(yǔ)言模型通過(guò)無(wú)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練,不需要人工進(jìn)行數(shù)據(jù)標(biāo)注,因此很容易開(kāi)發(fā)出大型模型。而物體識(shí)別系統(tǒng)等圖像模型更多是在現(xiàn)實(shí)世界中學(xué)習(xí)。換句話說(shuō),圖像模型并不依賴文本所提供的抽象世界來(lái)理解世界。比如,圖像模型可以從羊的圖片中 “看到”,羊其實(shí)是白色的。

能夠同時(shí)解析語(yǔ)言和視覺(jué)輸入的人工智能模型用處很大。例如,機(jī)器人需要計(jì)算機(jī)視覺(jué)來(lái)導(dǎo)航,也需要語(yǔ)言來(lái)與人類交流,因此該模型能用于開(kāi)發(fā)機(jī)器人。

但要結(jié)合這兩種類型,是說(shuō)起來(lái)容易做起來(lái)難。并非把現(xiàn)有的語(yǔ)言模型與物體識(shí)別系統(tǒng)拼接在一起便大功告成,而是需要從頭開(kāi)始訓(xùn)練新模型。所用數(shù)據(jù)集要包括文本和圖像,也就是所謂的視覺(jué)語(yǔ)言數(shù)據(jù)集。

要獲得這樣一個(gè)數(shù)據(jù)集,最常見(jiàn)的方法是做帶有描述性標(biāo)題的圖片集。例如,下面這張圖片的標(biāo)題設(shè)為 “一只橘貓臥在空行李箱里”。這樣的圖片集便和傳統(tǒng)圖片數(shù)據(jù)集不同。后者只用名詞來(lái)標(biāo)注圖片,比如給下面這張圖片只簡(jiǎn)單地命名為 “貓”。因此,視覺(jué)語(yǔ)言數(shù)據(jù)集不僅可以教人工智能模型如何識(shí)別對(duì)象,還可以教人工智能模型如何根據(jù)動(dòng)詞和介詞識(shí)別不同對(duì)象之間的相互關(guān)系。

但如此也意味著,創(chuàng)建數(shù)據(jù)集會(huì)耗費(fèi)很長(zhǎng)時(shí)間。因此,現(xiàn)有的視覺(jué)語(yǔ)言數(shù)據(jù)集太單薄了。而常用的純文本數(shù)據(jù)集則不同。如英語(yǔ)維基百科,包括了幾乎所有英語(yǔ)維基百科條目,有近 30 億個(gè)單詞。而視覺(jué)語(yǔ)言數(shù)據(jù)集 Microsoft Common Objects in Context(下文簡(jiǎn)稱 MS COCO)只包含 700 萬(wàn)個(gè),根本不足以訓(xùn)練一個(gè)有用的 AI 模型。

有了視覺(jué)監(jiān)督,問(wèn)題迎刃而解。視覺(jué)監(jiān)督使用無(wú)監(jiān)督學(xué)習(xí)方法,將 MS COCO 的數(shù)據(jù)規(guī)模擴(kuò)展到與英語(yǔ)維基百科相當(dāng)。視覺(jué)語(yǔ)言模型用規(guī)?;蟮臄?shù)據(jù)集訓(xùn)練后,研究人員使用了一些最難的 AI 語(yǔ)言理解能力測(cè)試對(duì)其進(jìn)行檢驗(yàn)。結(jié)果模型的表現(xiàn)甚至優(yōu)于當(dāng)今最先進(jìn)的模型。

自然語(yǔ)言處理初創(chuàng)公司 Hugging Face 的聯(lián)合創(chuàng)始人兼首席科學(xué)官托馬斯?沃爾夫說(shuō):“要在這些測(cè)試中擊敗最先進(jìn)的模型,得下大力氣。這些測(cè)試可不是兒戲。能有這樣的結(jié)果,真的讓人非常激動(dòng)?!?/p>

我們先理清一些術(shù)語(yǔ)。到底什么是 “voken”?

在人工智能領(lǐng)域,用來(lái)訓(xùn)練語(yǔ)言模型的詞稱為 token。UNC 研究人員便以 “voken”,來(lái)指代所用視覺(jué)語(yǔ)言模型中與任一 token 相關(guān)聯(lián)的圖像。用來(lái)匹配 token 和 voken 的算法稱為 vokenizer, 整個(gè)匹配過(guò)程稱為 “視覺(jué)監(jiān)督”。

說(shuō)了這么多,主要是為了幫助大家理解視覺(jué)監(jiān)督的基本理念。UNC 研究人員沒(méi)有拿著圖像數(shù)據(jù)集來(lái)手動(dòng)編寫(xiě)標(biāo)題,這耗時(shí)過(guò)長(zhǎng);他們選擇了使用語(yǔ)言數(shù)據(jù)集以及無(wú)監(jiān)督學(xué)習(xí)法,匹配每個(gè)單詞與相關(guān)圖像。如此便很容易規(guī)?;?。

此處的無(wú)監(jiān)督學(xué)習(xí)技術(shù)正是此項(xiàng)研究的貢獻(xiàn)。那么,究竟如何為每個(gè)單詞找到關(guān)聯(lián)圖像呢?

視覺(jué)監(jiān)督

先回到 GPT-3。GPT-3 所屬語(yǔ)言模型家族有 “變形金剛” 之稱。2017 年,該類模型首次面世,便是將無(wú)監(jiān)督學(xué)習(xí)應(yīng)用于自然語(yǔ)言處理取得的重大突破。變形金剛可以觀察單詞在上下文中的使用,再根據(jù)上下文創(chuàng)建每個(gè)單詞的數(shù)學(xué)表達(dá)式,即 “單詞嵌入”,以此來(lái)學(xué)習(xí)人類語(yǔ)言模式。例如,代表 “貓 ” 的嵌入可能會(huì)顯示,“喵 ” 和 “橙” 兩字周圍,“貓” 出現(xiàn)頻率高,但在 “吠 ” 或 “藍(lán)色 ” 周圍出現(xiàn)的頻率便較低。

因此,變形金剛猜單詞含義的準(zhǔn)確度較高,GPT-3 也因此能寫(xiě)出仿佛由人所作的句子。變形金剛一定程度上依靠這些嵌入,學(xué)習(xí)如何將單詞組成句子、句子組成段落。

還有一種類似技術(shù)也可以用于處理圖像。這種技術(shù)不是通過(guò)掃描文本來(lái)尋找單詞使用規(guī)律,而是通過(guò)掃描圖像來(lái)尋找視覺(jué)規(guī)律。比如,該技術(shù)將貓出現(xiàn)在床上與出現(xiàn)在樹(shù)上的頻率制成表格,并利用這些上下文信息創(chuàng)建 “貓” 的嵌入。

UNC 研究人員認(rèn)為,處理 MS COCO 要同時(shí)使用這兩種嵌入技術(shù)。研究人員將圖像處理為視覺(jué)嵌入,將標(biāo)題處理為文字嵌入。而這些嵌入妙就妙在能在三維空間中繪制出來(lái),完全可以看到嵌入之間的關(guān)系。如果某一視覺(jué)嵌入與某一單詞嵌入密切相關(guān),繪制出來(lái)后位置很接近。換句話說(shuō),理論上,代表貓的視覺(jué)嵌入應(yīng)該與代表貓的文字嵌入重合。

之后的工作也就水到渠成。一旦嵌入都繪制完畢、并相互比較和關(guān)聯(lián),就很容易開(kāi)始匹配圖像(voken)與文字(token)。而且,由于圖像和單詞基于原嵌入進(jìn)行匹配,那么實(shí)際也在基于上下文進(jìn)行匹配。這樣,即便一個(gè)詞可能有多個(gè)不同含義也不必?fù)?dān)心,該技術(shù)能為單詞的每個(gè)含義找到對(duì)應(yīng) voken。

比如:

這是她的聯(lián)系方式 。 一些貓喜歡被人撫摸。

這兩個(gè)例子中的 token 都是 “contact” 一詞。但在第一個(gè)句子中,上下文表明 “contact” 是聯(lián)系的意思,所以 voken 是聯(lián)系圖標(biāo)。在第二個(gè)句子中,上下文表明這個(gè)詞有觸摸的意思,所以 voken 顯示的是一只被撫摸的貓。

這些利用 MS COCO 創(chuàng)建的視覺(jué)和單詞嵌入,便用來(lái)訓(xùn)練算法 vokenizer。

一旦經(jīng)過(guò)訓(xùn)練,vokenizer 就能夠在英語(yǔ)維基百科中找 token 的對(duì)應(yīng) voken。雖然該算法只為大約 40% 的 token 找到了 voken,并不完美,但英語(yǔ)維基百科可是有接近 30 億字。

有了新的數(shù)據(jù)集后,研究人員重新訓(xùn)練了 BERT 語(yǔ)言模型。BERT 是谷歌開(kāi)發(fā)的開(kāi)源變形金剛,比 GPT-3 還要早。然后,研究人員使用六個(gè)語(yǔ)言理解測(cè)試,測(cè)試改進(jìn)的 BERT。語(yǔ)言理解測(cè)試中有 SQuAD 斯坦福回答數(shù)據(jù)集,該測(cè)試要求模型回答基于文章的閱讀理解題;還有 SWAG 測(cè)試,該測(cè)試?yán)糜⒄Z(yǔ)語(yǔ)言的精妙處,檢測(cè)模型是否只是單純模仿和記憶。改進(jìn)的 BERT 在所有測(cè)試?yán)锉憩F(xiàn)都比原來(lái)更突出。沃爾夫說(shuō),這并不奇怪。

11 月 16 日到 18 日將舉辦自然語(yǔ)言處理實(shí)證方法會(huì)議。研究人員將在會(huì)議上展示視覺(jué)監(jiān)督新技術(shù)。雖然研究還處于早期階段,但沃爾夫認(rèn)為,從在視覺(jué)語(yǔ)言模型中利用無(wú)監(jiān)督學(xué)習(xí)方面看,這項(xiàng)工作是一項(xiàng)重要觀念突破。當(dāng)年,正是類似突破極大推動(dòng)了自然語(yǔ)言處理的發(fā)展。

沃爾夫說(shuō):“在自然語(yǔ)言處理領(lǐng)域,兩年多前便有了這一巨大突破,然后突然間自然語(yǔ)言處理領(lǐng)域有了很大發(fā)展,開(kāi)始走在其他 AI 領(lǐng)域前面。但是把文字和其他事物聯(lián)系起來(lái)還是有很大障礙。就像機(jī)器人只能說(shuō)話,但不會(huì)看、不會(huì)聽(tīng)?!?/p>

“這篇論文則做到了將文字與另一種模式連接起來(lái),而且效果更好,樹(shù)立了典范??梢韵胂?,如果要把這種非常強(qiáng)大的語(yǔ)言模型用到機(jī)器人上,也許能用到部分新技術(shù)。比如,用同樣的技術(shù)將機(jī)器人的感官和文本聯(lián)系起來(lái)。”

原文標(biāo)題:AI下個(gè)大突破之前奏:研究人員正在教大型語(yǔ)言模型 “看” 世界,進(jìn)而理解世界

文章出處:【微信公眾號(hào):DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器視覺(jué)
    +關(guān)注

    關(guān)注

    163

    文章

    4512

    瀏覽量

    122298
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34274

    瀏覽量

    275460
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48726

    瀏覽量

    246636

原文標(biāo)題:AI下個(gè)大突破之前奏:研究人員正在教大型語(yǔ)言模型 “看” 世界,進(jìn)而理解世界

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    研究人員開(kāi)發(fā)出基于NVIDIA技術(shù)的AI模型用于檢測(cè)瘧疾

    瘧疾曾一度在委內(nèi)瑞拉銷聲匿跡,但如今正卷土重來(lái)。研究人員已經(jīng)訓(xùn)練出一個(gè)模型來(lái)幫助檢測(cè)這種傳染病。
    的頭像 發(fā)表于 04-25 09:58 ?249次閱讀

    小白學(xué)大模型:訓(xùn)練大語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家
    的頭像 發(fā)表于 03-03 11:51 ?622次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:訓(xùn)練大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的深度指南

    AI基礎(chǔ)模型提升癌癥診斷精確度,實(shí)現(xiàn)個(gè)性化治療方案定制

    斯坦福大學(xué)研究人員正在通過(guò)一項(xiàng)新研究和一個(gè)新 AI 模型簡(jiǎn)化癌癥診斷、治療規(guī)劃和預(yù)后預(yù)測(cè)。這項(xiàng)名為“多模態(tài)統(tǒng)一掩碼建模 Transforme
    的頭像 發(fā)表于 02-11 09:22 ?858次閱讀
    <b class='flag-5'>AI</b>基礎(chǔ)<b class='flag-5'>模型</b>提升癌癥診斷精確度,實(shí)現(xiàn)個(gè)性化治療方案定制

    基于Arm Neoverse平臺(tái)的處理器革新生成式AI體驗(yàn)

    Llama 是一個(gè)專為開(kāi)發(fā)者、研究人員和企業(yè)打造的開(kāi)源大語(yǔ)言模型 (LLM) 庫(kù),旨在推動(dòng)生成式 AI 的創(chuàng)新、實(shí)驗(yàn)及可靠地?cái)U(kuò)展。
    的頭像 發(fā)表于 01-03 15:31 ?587次閱讀
    基于Arm Neoverse平臺(tái)的處理器革新生成式<b class='flag-5'>AI</b>體驗(yàn)

    AI語(yǔ)言模型開(kāi)發(fā)步驟

    開(kāi)發(fā)一個(gè)高效、準(zhǔn)確的大語(yǔ)言模型是一個(gè)復(fù)雜且多階段的過(guò)程,涉及數(shù)據(jù)收集與預(yù)處理、模型架構(gòu)設(shè)計(jì)、訓(xùn)練與優(yōu)化、評(píng)估與調(diào)試等多個(gè)環(huán)節(jié)。接下來(lái),AI部落小編為大家詳細(xì)闡述
    的頭像 發(fā)表于 12-19 11:29 ?736次閱讀

    NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺(jué)語(yǔ)言模型

    日前,加州大學(xué)的研究人員攜手英偉達(dá),共同推出了一款創(chuàng)新的視覺(jué)語(yǔ)言模型——NaVILA。該模型在機(jī)器人導(dǎo)航領(lǐng)域展現(xiàn)出了獨(dú)特的應(yīng)用潛力,為智能機(jī)器人的自主導(dǎo)航提供了一種全新的解決方案。 視
    的頭像 發(fā)表于 12-13 10:51 ?611次閱讀

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?468次閱讀

    AMD發(fā)布10億參數(shù)開(kāi)源AI模型OLMo

    AMD公司近日宣布了一項(xiàng)重大進(jìn)展,推出了首個(gè)完全開(kāi)放的10億參數(shù)語(yǔ)言模型系列——AMD OLMo。這一舉措為開(kāi)發(fā)者和研究人員提供了強(qiáng)大的AI研究
    的頭像 發(fā)表于 11-12 18:08 ?725次閱讀

    從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢(qián)?

    一,前言 ? 在AI領(lǐng)域,訓(xùn)練一個(gè)大型語(yǔ)言模型(LLM)是一個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型語(yǔ)言
    的頭像 發(fā)表于 11-08 14:15 ?714次閱讀
    從零開(kāi)始訓(xùn)練一<b class='flag-5'>個(gè)大</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>需要投資多少錢(qián)?

    AI模型的最新研究進(jìn)展

    AI模型的最新研究進(jìn)展體現(xiàn)在多個(gè)方面,以下是對(duì)其最新進(jìn)展的介紹: 一、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式
    的頭像 發(fā)表于 10-23 15:19 ?1261次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    偏見(jiàn)、倫理道德等問(wèn)題。此外,如何更好地將AI與科學(xué)研究人員的傳統(tǒng)工作模式相融合,也是一個(gè)亟待解決的問(wèn)題。未來(lái),隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的拓展,AI for Science有望在更多領(lǐng)域發(fā)揮關(guān)鍵作用
    發(fā)表于 10-14 09:16

    基于CPU的大型語(yǔ)言模型推理實(shí)驗(yàn)

    隨著計(jì)算和數(shù)據(jù)處理變得越來(lái)越分散和復(fù)雜,AI 的重點(diǎn)正在從初始訓(xùn)練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強(qiáng)大的公開(kāi)可用的大型語(yǔ)言
    的頭像 發(fā)表于 07-18 14:28 ?935次閱讀
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理實(shí)驗(yàn)

    AI模型與傳統(tǒng)AI的區(qū)別

    AI模型(如LLM,即大型語(yǔ)言模型)與傳統(tǒng)AI在多個(gè)方面存在顯著的區(qū)別。以下將從技術(shù)層面、應(yīng)用
    的頭像 發(fā)表于 07-15 11:37 ?5355次閱讀

    AI模型的發(fā)展歷程和應(yīng)用前景

    隨著人工智能技術(shù)的飛速發(fā)展,AI模型逐漸成為研究與應(yīng)用領(lǐng)域的熱點(diǎn)。AI模型,顧名思義,是指具有巨大參數(shù)量的深度學(xué)習(xí)
    的頭像 發(fā)表于 07-03 18:20 ?2141次閱讀

    谷歌發(fā)布新型大語(yǔ)言模型Gemma 2

    在人工智能領(lǐng)域,大語(yǔ)言模型一直是研究的熱點(diǎn)。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開(kāi)發(fā)人員,正式發(fā)布了其最新研發(fā)的大
    的頭像 發(fā)表于 06-29 09:48 ?674次閱讀