兩年前,一名因脊髓損傷而癱瘓的64歲男子使用腦機接口(BCI)實現(xiàn)了以每分鐘8個單詞的速度打字,這在當時是創(chuàng)紀錄的。
加州大學(xué)舊金山分校(UCSF)的科學(xué)家們提出了一種由神經(jīng)網(wǎng)絡(luò)驅(qū)動的新型BCI,可以讓癱瘓或中風(fēng)的人以自然語音的速度(平均每分鐘150個單詞)交流。他們的這一研究成果4月24日發(fā)表在了Nature上,文章標題為“Speech synthesis from neural decoding of spoken sentences”。
USFC研究團隊發(fā)表在Nature上的論文
該技術(shù)通過一個獨特的兩步過程運作:首先,它將大腦信號轉(zhuǎn)換成聲道(包括下頜、喉部、嘴唇和舌頭)的運動。之后,它將這些運動合成為語音。該系統(tǒng)需要一個直接放置在大腦上的手掌大小的電極陣列。論文作者說,該系統(tǒng)概念驗證了從腦活動中重建自然語音是可能的。
加州大學(xué)舊金山分校的研究人員使用了與上圖中的電極陣列類似的一個顱內(nèi)電極陣列來記錄參與這項新研究的受試者的大腦活動。照片來源:UCSF。
在關(guān)于該研究的一則新聞報道中,UCSF神經(jīng)外科醫(yī)生、這項研究的負責(zé)人Edward Chang表示,許多研究都聚焦在從腦活動中解碼聲音或完整單詞,但解碼思想“非常困難” 。“我們很明確地嘗試解碼動作以創(chuàng)建聲音,而不是直接解碼聲音。”
美國西北大學(xué)神經(jīng)修復(fù)實驗室的負責(zé)人Marc Slutzky(他并未參與該研究)說:“對于如何從腦信號中直接解碼語音,這是一項設(shè)計精美、執(zhí)行良好的研究。”
然而,將這項技術(shù)轉(zhuǎn)化為臨床實踐將是一個挑戰(zhàn),Slutzky補充說:“目前,F(xiàn)DA批準的設(shè)備中還沒有哪種使用他們在高通道能力情形下使用的電極類型(他們在這里使用了256個通道),所以這仍然是一個障礙。但我相信這最終會被克服。”
有很多研究在應(yīng)用神經(jīng)網(wǎng)絡(luò)——松散地模擬人腦的一套算法,常用于深度學(xué)習(xí)——來解釋腦活動“發(fā)出”的聲音,Chang的論文是這一系列努力中的最新成果。今年早些時候,兩個獨立的團隊——西北大學(xué)的Slutzky實驗室和哥倫比亞大學(xué)的Nima Mesgarani實驗室——分別在Journal of Neural Engineering和Scientific Reports上發(fā)表了論文,他們都使用神經(jīng)網(wǎng)絡(luò)來從感覺網(wǎng)絡(luò)的腦活動中重建語音。Chang的研究與這兩項研究的不同之處在于,它分析的是運動皮層的腦活動。
西北大學(xué)Slutzky實驗室發(fā)表在Journal of Neural Engineering上的論文
哥倫比亞大學(xué)Nima Mesgarani實驗室發(fā)表在Scientific Reports上的論文
Mesgarani告訴IEEE Spectrum說:“最終哪種方法能更好地解碼想象中的言談情況,還有待觀察,但很可能將兩者結(jié)合起來的方法是最好的。”
包括Chang的研究在內(nèi)的最近的各項研究都依賴于通過手術(shù)在大腦中或大腦上放置電極。雖然Facebook聲稱它正在開發(fā)一種能夠每分鐘從用戶的大腦中讀出100個單詞的非侵入性技術(shù),但它還沒有發(fā)布支持這一說法的研究成果。專家們同意,外部電極無法從小腦區(qū)提供足夠精確的數(shù)據(jù)。專家們一致認為,外部電極無法提供來自腦部小區(qū)域的足夠精確的數(shù)據(jù)。BrainGate聯(lián)盟在2017年發(fā)表了那項關(guān)于癱瘓男子利用BCI實現(xiàn)每分鐘打字8個單詞的研究,最近它還發(fā)表了一篇關(guān)于癱瘓者利用BCI以“意念”操控平板電腦的論文,也都是依賴于植入大腦的芯片的。
在Chang及其同事們的研究中,他們在5名接受癲癇治療的受試者的言語運動皮層植入了電極陣列,然后從這些電極陣列收集數(shù)據(jù)。研究人員記錄了患者大聲說出幾百句話時的大腦信號。這些句子包括“這個蹺蹺板安全嗎?”和“在第十二天黃昏時,我們會喝夏布利酒”等,它們是被特別挑選出來,囊括了英語的所有音標。
接下來,研究人員使用一個神經(jīng)網(wǎng)絡(luò)將這些高分辨率的腦信號解碼成聲道運動——本質(zhì)上是將腦電波轉(zhuǎn)換成能夠產(chǎn)生聲音的物理運動模型,比如嘴唇、舌頭或下頜的運動。這項研究基于該團隊去年發(fā)表在Neuron期刊上的一個模型。
Chang的團隊去年發(fā)表在Neuron上的論文
最后,他們使用第二個神經(jīng)網(wǎng)絡(luò)將這些聲道運動的數(shù)字化表示合成為音頻信號,并讓志愿者傾聽。在對101個句子的試驗中,聽者可以在單詞庫的幫助下很好地識別和寫出聽到的合成語音:句子中單詞來自25個單詞的詞匯池時,43%的句子被完美地寫了出來;句子中單詞來自50個單詞的詞匯池時,21%的句子被完美地寫了出來。總的來說,大約70%的單詞被正確地寫了出來。Chang說,下一步的研究包括使音頻更加自然和易懂。
這項研究還有一個有趣的發(fā)現(xiàn),一名受試者被要求在不發(fā)出聲音的情況下用其聲道做相同的發(fā)音動作。BCI能夠從這些發(fā)音動作中合成出可理解的語音,這表明該系統(tǒng)可以應(yīng)用于不能發(fā)出聲音的人。
解碼出來的聲道運動在人與人之間大同小異,這表明有可能創(chuàng)建出一種可在不同的人之間共享的“通用”解碼器。Chang說:“模仿一個人聲音的人造聲道可以被用來從另一個人的腦活動中合成語音。”
這項研究的一個主要局限是,其受試者都是沒有語言障礙的人。Chang說,未來,該團隊希望對不能說話的患者進行臨床試驗。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4807瀏覽量
102769 -
腦機接口
+關(guān)注
關(guān)注
10文章
395瀏覽量
21914
原文標題:加州大學(xué)舊金山分校提出新型腦機接口 可根據(jù)腦活動重建自然語音
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論