女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

思必馳俞凱:關(guān)于自然語言技術(shù)的暢想

思必馳 ? 來源:djl ? 作者:思必馳 ? 2019-08-07 17:58 ? 次閱讀

自然語言技術(shù)的未來,其關(guān)鍵點(diǎn)是'自然'兩個字。

11月最后一天,思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱博士在清華x-lab主辦的人工智能研習(xí)社第七課上,如此評價自然語言處理,并與現(xiàn)場聽眾一起暢想了這一潛力巨大的技術(shù)將走向哪里。

思必馳聯(lián)合創(chuàng)始人俞凱在清華演講

在這場題為《認(rèn)知型口語對話智能》的講座上,俞凱認(rèn)為認(rèn)知交互面臨的最主要的挑戰(zhàn)一定不是語音,因?yàn)閺?a href="http://www.asorrir.com/tags/語音識別/" target="_blank">語音識別的角度上來說,問題明確,只要專門向這個領(lǐng)域去做,絕大部分都可以優(yōu)化的很好。

他認(rèn)為其最大的挑戰(zhàn)還是對話的過程,例如針對抑郁癥患者治療的這類場景,語音對話更像是有目的的聊天,如果沒有很強(qiáng)的數(shù)學(xué)背景在后面做支持,是很難的,只有在一個垂直領(lǐng)域積累更多的數(shù)據(jù),才能做得更好。

大數(shù)據(jù)文摘整理的俞凱博士本次講座內(nèi)容如下,在不改變原意的前提下有刪改:

今天的題目叫認(rèn)知型口語對話智能,核心點(diǎn)是兩個字:“對話”。

這兩個字不單單包含語音,還包含語言。從人機(jī)變遷講起來,我在清華待了八年時間,在這八年當(dāng)中,我們經(jīng)歷了人和機(jī)器在不同時代交互的幾個變遷。

我們?yōu)槭裁撮_始關(guān)心口語對話智能

今天第一個要講的問題,就是我們?yōu)槭裁撮_始關(guān)心口語對話智能。

剛開始的時候我們使用的是Windows圖形交互界面,通過機(jī)器圖形交互界面使得人和信息可以進(jìn)行交流,我們奇跡般的看到了打印出來很工整的排版。而到了現(xiàn)在,在2011年開始,手機(jī)變成智能手機(jī),使用開始變的非常廣泛,這個時代自然的語言(手動輸入、語音)逐漸形成了我們現(xiàn)在的交互手段。再往后我們發(fā)現(xiàn)通過口語溝通是未來智能信息獲取最核心的東西,而移動互聯(lián)網(wǎng)的時代,最關(guān)鍵的是這一類溝通產(chǎn)生了一種新的模式,那就是交互。

講座現(xiàn)場圖

在上世紀(jì)出現(xiàn)Google、百度等搜索引擎的時候,交互還是單向的,但出現(xiàn)智能手機(jī)之后我們的交互變成了雙向。比如蘋果的交互史,在剛開始做出來第一代iPhone的時候并沒有語音交互的能力,但經(jīng)過市場調(diào)研之后發(fā)現(xiàn)有75%的用戶都希望有語音控制。于是,在后面兩代iPhone加入了語音控制,但到后面發(fā)現(xiàn)實(shí)際使用的用戶竟然不到5%,蘋果經(jīng)過總結(jié)之后發(fā)現(xiàn)不僅僅是語音,還必須有自然語言交互。于是在iPhone4S上面出現(xiàn)了Siri,再次經(jīng)過市場調(diào)研之后發(fā)現(xiàn),大概有87%的用戶至少在一個月會使用一次Siri。

而且,他們還發(fā)現(xiàn)了一件事情,這87%的用戶使用Siri的時候基本上都是在調(diào)戲Siri,并不做其它的事情,這導(dǎo)致蘋果并不能賺到錢。這也促使了蘋果在2015年收購了一家做統(tǒng)計(jì)對話交互的公司VocalIQ,這會讓技術(shù)語音識別和語義連在一起形成完整的閉環(huán),Siri就可以為我們提供新的功能了。

講座現(xiàn)場圖

現(xiàn)如今大家都說是互聯(lián)網(wǎng)時代,那么如今的信息發(fā)展到什么程度了呢?有一個統(tǒng)計(jì)顯示,到2017年年底,全世界物聯(lián)網(wǎng)智能設(shè)備的總數(shù)將首次超過人類總數(shù)。而且這些智能設(shè)備絕大部分是沒有或者擁有很小的屏幕,并沒有辦法進(jìn)行很復(fù)雜的操作,這些設(shè)備如果想要去訪問最核心抽象復(fù)雜的信息,只能是語音或者對話的形式。這也是眾多巨頭從2014年的音箱開始,推出一系列智能音箱的原因。從技術(shù)上講,這件事情不僅僅是要解決框架的問題,還包括了對話管理、識別、合成以及我們的理解。

語音識別存在的問題和機(jī)遇

我們會碰到什么樣的問題,以及在這個過程中有多少和我們的應(yīng)用相關(guān)的機(jī)會。

首先是語音識別。

語音識別是感知技術(shù)這一類里面前沿的技術(shù),當(dāng)許多人看到語音識別,第一個會想到的問題就是語音識別似乎已經(jīng)被解決了,當(dāng)我們使用一個包羅萬象的語音識別系統(tǒng)的時候,我講“疏影橫斜水清淺,暗香浮動月黃昏”這樣的東西都可以比較完整的出來。但盡管采用了深度學(xué)習(xí)的技術(shù),仍然避免不了錯誤,它也會偶爾的有一些語音識別的錯誤出現(xiàn),而我們的任務(wù)就是使得它像人一樣,在有錯誤的時候,完整的去進(jìn)行人機(jī)交互,修正錯誤,這需要感知技術(shù)和認(rèn)知技術(shù)相互的幫助來實(shí)現(xiàn)。

第二是計(jì)算能力。

語音識別的解決是與計(jì)算能力有關(guān)的,舉一個例子,剛才我在做演示的時候,這個演示的應(yīng)用背后早期使用的深度神經(jīng)網(wǎng)絡(luò),共有7層,每層有2048個節(jié)點(diǎn),輸入是1320,輸出是將近1萬,這大概有4500萬的參數(shù),在做語音識別的時候我們是把每秒鐘的語音切成100份,每一份提取1320個向量,大家想象我在一秒鐘要讓特征向量經(jīng)過100次深度神經(jīng)網(wǎng)絡(luò)計(jì)算,之后還要在數(shù)以億計(jì)節(jié)點(diǎn)的搜索網(wǎng)絡(luò)里再去搜它,所以這個運(yùn)算是非常非常復(fù)雜的。曾經(jīng)有過統(tǒng)計(jì),整個語音識別會分成搜索的速度和做神經(jīng)網(wǎng)絡(luò)前向傳遞的速度,這兩個速度的比例,在傳統(tǒng)系統(tǒng)里面前向傳遞的速度占30%-40%,后面在各種各樣的語言空間搜索的速度大體占60%-70%。所以,在技術(shù)上必須突破速度的問題。

現(xiàn)場聽眾提問

感知智能另外一件事是如何把它做得更小。整個信息技術(shù)的變化和推進(jìn)一定是和技術(shù)基礎(chǔ)的推進(jìn)有關(guān),性能抗噪能不能達(dá)到90%、能不能在手機(jī)手表上面也做到大詞匯等新的挑戰(zhàn)不斷應(yīng)運(yùn)而生,隨著在智能物聯(lián)網(wǎng)方面我們做出各種各種的優(yōu)化之后,這樣的挑戰(zhàn)開始被一個個的克服掉。

認(rèn)知這個事情更加麻煩。人機(jī)對話并不是大家想象那樣,對話也是分成很多種形態(tài)的,有的可以很好的解決,有的卻毫無頭緒。如果以不同的輪回次數(shù)來分類,大概可以分為下面幾種。第一種是模式最少的,單輪模式,即我說一句它回答一句,而且沒有什么特定的結(jié)構(gòu)化語義,這種情況基本上是命令式的,十分簡單。復(fù)雜一點(diǎn)的則是問答,現(xiàn)在的經(jīng)典深度學(xué)習(xí)技術(shù)很多是用來解決問答這個問題的,因?yàn)閱柎鸹旧鲜且粏栆淮穑阏f一句它會給你一個答案,偶爾會帶有一點(diǎn)上下文,這并不是真正意義上多輪的東西。還有一類是閑聊,比如微軟小冰,你不停的說,它就不停的跟你聊天。閑聊的準(zhǔn)則就是以聊得時間來定義的,曾經(jīng)有一位用戶,聊了好幾個小時依然在繼續(xù)。但這里面是沒有什么目標(biāo)意義的,所以閑聊要考慮的是如何把一些比較有趣的東西融入進(jìn)去。

但是里面究竟有什么意義,機(jī)器是不會去關(guān)注的,只要有用戶黏性跟它一直聊下去,特點(diǎn)是多輪,沒什么結(jié)構(gòu)化的東西。偶爾會加一些知識,現(xiàn)在希望把這個東西融合起來,這是方向,本質(zhì)上沒有什么結(jié)構(gòu)化的東西。所以閑聊這一類事情實(shí)際上更多的是怎么樣能夠把一些比較有趣的東西融進(jìn)去。實(shí)事求是來講目前還缺乏一套比較扎實(shí)的理論體系,能夠真正在理論上解決掉。

最后一類是任務(wù)型的多輪對話,這類對話是有比較扎實(shí)的數(shù)學(xué)基礎(chǔ)的,把對話看做是一個序列決策過程。

這一技術(shù)的三個層面

如果從認(rèn)知層級的結(jié)算上來講,我們會把認(rèn)知技術(shù)分為三個層面。

第一種是靜態(tài)層面,我隨便說一句話,自然語言能不能理解,能不能映射到正確的意思上面去。

第二類是交互決策,意思是我在說話的時候如何進(jìn)行反饋,比如我對一個機(jī)器說我要找到餐館,它要明白我想去哪、吃什么。

第三是進(jìn)化,我想要便宜的東西,它卻以為我想要貴的,當(dāng)它發(fā)現(xiàn)錯了之后下一次一定要更新自己的反饋策略,進(jìn)化出自己的認(rèn)知。

聊一件和各位相關(guān)的事情:大規(guī)模可定制對話智能。在講整個對話智能的時候,我們會發(fā)現(xiàn)在整個流程里面,每一個環(huán)節(jié)都看起來很美好,但一到專業(yè)領(lǐng)域的環(huán)節(jié)就會變得不一樣了。比如做對話模式,做購物的場景與金融、家庭的場景所理解的東西完全不一樣,這個時候就要看做出來的模型是否每一個場景都能識別,是否能很好的支持。在細(xì)節(jié)上面,還有很多個性化需求,例如喚醒。當(dāng)我們喊小樂給我放一首歌的時候,這個小樂就是一種喚醒。但有的時候我們希望它有好幾個名字,這種需要多喚醒詞的需求在未來會出現(xiàn)更多。

當(dāng)我們真正去做的時候,會希望在我們所使用的口語對話系統(tǒng)上的支撐可以定制。而大規(guī)模可定制是我們提出的新概念,在2013年我們發(fā)布了一個叫“對話工場”的平臺,2017年升級到大規(guī)模可定制的“Dialogue User Interface”,DUI,其本質(zhì)上是把圖形界面和語音界面在對話交互的框架下結(jié)合在一起。

定制性的語音交互技術(shù)可以做什么?

這時候,我們會好奇,這些定制技術(shù)能做什么呢?比如可以在做實(shí)時語音識別和大詞匯語音識別的時候,做出來一個功能,當(dāng)語義改變的時候,語音識別會對我們自動添加的詞做自動識別,比如我們添加了“瀧澤蘿拉”四個字,語音識別系統(tǒng)能自動把它加入詞表并具有識別的能力,繼而在實(shí)現(xiàn)理解和交互。

我們想要做一件事情,在一個車載的系統(tǒng)里面,自動選擇一些聲音添加進(jìn)去,當(dāng)想要林志玲甜甜聲音的時候,喊一聲林志玲出來,絕對不會再出來郭德綱的聲音,讓它回去它就會切換為原本的郭德綱聲音。我們希望這樣的事情可以很自由的來回切換。更進(jìn)一步,我們要支持對理解和對話進(jìn)行相應(yīng)的定制。

在這個過程里,在我們真正背后的技術(shù)上來說,已經(jīng)不再是一般的語音的和對話的交互,不再僅僅是前面我們提到的感知和認(rèn)知的獨(dú)立框架。在這里要解決的問題是所謂大規(guī)模可定制的一些新技術(shù)。比如說在識別里,要解決所謂的自適應(yīng)的問題。比如說話人和環(huán)境的自適應(yīng)、領(lǐng)域主題的自適應(yīng)等這些東西可以及時的去改變它,可以使得對話有很多的自適應(yīng)。如果實(shí)現(xiàn)這些自適應(yīng)規(guī)模化的話還需要有相應(yīng)的系統(tǒng)支持。在這個過程里需要有具體的技術(shù)拆借、需要有模型定制,能夠使得它規(guī)模化的擴(kuò)展,并且在個性的基礎(chǔ)之上去進(jìn)行進(jìn)化,這一類東西里會有很多新型的技術(shù)出現(xiàn),但這些技術(shù)都需要技術(shù)基礎(chǔ)的支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能語音
    +關(guān)注

    關(guān)注

    11

    文章

    797

    瀏覽量

    49388
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13608
收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    python自然語言

    最近,python自然語言是越來越火了,那么什么是自然語言自然語言(Natural Language )廣納了眾多技術(shù),對自然或人類
    發(fā)表于 05-02 13:50

    什么是自然語言處理

    什么是自然語言處理?自然語言處理任務(wù)有哪些?自然語言處理的方法是什么?
    發(fā)表于 09-08 06:51

    攜語音識別技術(shù)亮相2018AIIA人工智能開發(fā)者大會

    公開課——《對話系統(tǒng)中的自然語言處理技術(shù)》上,
    的頭像 發(fā)表于 10-19 08:55 ?4754次閱讀

    與中芯國際合作 發(fā)布首款A(yù)I專用芯片

    1月4日,在聯(lián)合創(chuàng)始人、首席科學(xué)家的主持下,
    發(fā)表于 01-05 09:52 ?2215次閱讀

    憑借專注智能硬件領(lǐng)域的語音交互方案,被評為“易觀之星”

    產(chǎn)學(xué)研一體化方式,專注原始技術(shù)創(chuàng)新及強(qiáng)大的研發(fā)實(shí)力,成為獲選的重大理由。
    的頭像 發(fā)表于 08-06 14:17 ?2080次閱讀

    入選機(jī)器之心和Comet Labs發(fā)布了影響全球人工智能公司的榜單

    也看到了科研的力量,看到了對技術(shù)性企業(yè)而言,原始技術(shù)創(chuàng)新的重要性。
    的頭像 發(fā)表于 08-06 11:48 ?2692次閱讀

    借CCTV NEWS向全世界釋放來自中國的黑科技魅力

    討論中,聯(lián)合創(chuàng)始人從學(xué)術(shù)的角度分析了人工智能發(fā)展的趨勢及基礎(chǔ),大數(shù)據(jù)分析、系統(tǒng)、人機(jī)交互成為人工智能發(fā)展的爆點(diǎn),
    的頭像 發(fā)表于 08-06 10:03 ?2503次閱讀

    科技部處長吳家喜一行蒞臨考察交流

    和副總裁李春梅陪同接待。 考察過程中,詳細(xì)介紹了的發(fā)展歷程。作為國內(nèi)領(lǐng)先的對話式人工智能平臺公司,
    的頭像 發(fā)表于 05-20 14:44 ?2943次閱讀

    在車聯(lián)網(wǎng)領(lǐng)域的應(yīng)用與實(shí)踐

    針對智能物聯(lián)網(wǎng)時代下對話式人工智能的最新進(jìn)展,介紹了人工智能基本概念以及對話式人工智能的技術(shù)路線和前沿技術(shù),并分享了
    的頭像 發(fā)表于 09-06 14:46 ?2860次閱讀

    攜手佳都科技助力軌道交通智能化升級

    “東風(fēng)生萬物”DFM-2大模型及創(chuàng)新技術(shù)應(yīng)用成果發(fā)布會在蘇州成功舉行,
    的頭像 發(fā)表于 07-18 15:32 ?827次閱讀

    攜手合眾新能源為用戶打造智慧出行體驗(yàn)

    “東風(fēng)生萬物”DFM-2大模型及創(chuàng)新技術(shù)應(yīng)用成果發(fā)布會在蘇州成功舉行。
    的頭像 發(fā)表于 07-18 15:35 ?804次閱讀

    攜手上汽通用五菱共建強(qiáng)大AI技術(shù)底座

    “東風(fēng)生萬物”DFM-2大模型及創(chuàng)新技術(shù)應(yīng)用成果發(fā)布會于7月12日在蘇州成功舉行。
    的頭像 發(fā)表于 07-18 15:39 ?1084次閱讀

    攜手老板電器共創(chuàng)智慧廚房

    【東風(fēng)生萬物】DFM-2大模型及創(chuàng)新技術(shù)應(yīng)用成果發(fā)布會在蘇州成功舉行。
    的頭像 發(fā)表于 07-18 15:42 ?894次閱讀

    江蘇省領(lǐng)導(dǎo)蒞臨調(diào)研考察

    近日,江蘇省委常委、省委宣傳部部長徐纓一行蒞臨蘇州進(jìn)行調(diào)研,受到董事長兼CEO高始興
    的頭像 發(fā)表于 03-24 16:32 ?392次閱讀

    出席語言計(jì)算技術(shù)創(chuàng)新專題研討會

    近日,與東南大學(xué)蘇州校區(qū)聯(lián)合舉辦語言計(jì)算技術(shù)創(chuàng)新專題研討暨校企合作洽談會。
    的頭像 發(fā)表于 04-17 15:42 ?210次閱讀