有些人可能會認為,讓支持多種語言(包括西班牙語、德語和日語)的Alexa“聽懂”方言是小菜一碟,但事實并非如此。據亞馬遜的研究人員稱,英式英語和美式英語之間的鴻溝非常之大,以至于經常需要從頭開始訓練機器學習模型。
Alexa理論上應該能夠使用已有的知識引導語言訓練。這就是為什么亞馬遜的科學家們正在研究一種技術,這種技術可以找出客戶的需求主題,比如音樂、天氣或運動,并識別出與特定領域無關的語言。
亞馬遜的研究人員在計算語言學協會北美分會上發表的論文中,描述了他們的工作。亞馬遜Alexa人工智能高級應用科學經理Young Bum Kim寫道:“域名分類的多任務訓練具有挑戰性的一個原因是,對同一域名的請求在不同地區可能看起來大相徑庭。例如,對餐館域名的請求在孟買的餐館名稱將與在倫敦的餐館名稱大不相同,盡管顧客要求相同的服務,像地址信息、菜單信息、預訂等。在某些案例中,當跨區域的請求更一致時,幾個不同的地區特定模型的輸出可以相互加強,提高了準確性。”
該團隊的域分類器同時執行多個任務,主要是學習一種語言的統計模型,該模型捕捉跨區域的一致性,并在通用和地區特定模型的輸出上學習不同的分類。重要的是,注意機制根據輸入給出了不同語言環境特定模型的輸出的不同側重點,這樣當輸入數據依賴于語言環境時,它將其大部分權重分配給單個語言環境特定模型,并忽略輸出其他特定于語言環境的模型。
為了確定在運行時應該接受“特殊處理”的域,研究人員在訓練時將特定于區域的模型的輸出組合成單個向量,其中權重較大的輸出對向量最終值的貢獻大于權重較小的輸出。然后,將向量與獨立于區域設置的模型的輸出連接起來,并將其傳遞給另一個網絡層進行域分類。
在美國、英國,印度和加拿大四種英語變體的實驗中,與單獨訓練的模型相比,研究人員的模型準確度提高了18%、43%、116%和57%。
此前,如果要確保Alexa語音助手能夠很好的理解語言變體,就需要針對每一種語言變體進行重新的訓練,而亞馬遜研究人員所創造的這種新的語音識別訓練方法,意味著為現有語言的新變體構建模型的工作量將大大減少。
-
亞馬遜
+關注
關注
8文章
2692瀏覽量
84482
發布評論請先 登錄
不同設備中電源濾波器接線方式的差異

評論