來自加拿大初創公司的新技術意味著用于自然語言處理的 AI 模型可以在小型 CPU 甚至微控制器上高效運行。語音控制功能,現在通常通過互聯網連接到云來完成,現在可以添加到各種設備中。
初創公司 PicoVoice(加拿大溫哥華)推出了一個緊湊的語音到文本推理引擎,可以在最少的計算資源上運行。該公司表示,與競爭的邊緣自然語言處理解決方案相比,PicoVoice 技術在計算和內存方面使用的資源要少一個數量級。這可以在各種設備上啟用語音識別,而無需將任何數據發送到云端。
雖然云端處理模型對于亞馬遜 Alexa 和 Google Home 等助手來說是眾所周知的,但它可能無法轉化為需要嚴格隱私或低成本的邊緣設備中的語音識別。
PicoVoice 創始人兼總裁 Alireza Kenarsari-Anhari 表示:“隨著[支持語音的] 設備變得越來越普遍,在服務器端處理所有內容在財務上將無法正常工作。” “計算資源不是免費的。要為所有東西制作語音界面,你需要讓它足夠便宜。在設備上運行是做到這一點的唯一方法。”
例如,根據 Kenarsari-Anhari 的說法,使用公共云服務的聲控咖啡機,如果每天使用 10 次,每臺設備每年的成本約為 15 美元。
“如果您使用咖啡機 CPU 上已有的資源,您可以免費執行此操作,”他說。
根據具體的應用,在邊緣執行語音識別還可以提供更好的延遲和可靠性。
語音激活助手,如 Amazon Alexa,使用云進行自然語言處理,但這種模式可能不適用于更便宜的設備(圖片:Loewe Technologies
語音轉文本
PicoVoice 的新產品是一種用于語音到文本轉錄的機器學習模型,它在小型 CPU 上運行,就像 Raspberry Pi Zero 上的 ARM11 內核一樣。該模型可以理解大約 200,000 個英語單詞,單詞錯誤率與基于云的家庭助手相當。這可以用于需要云外轉錄能力的設備。
“市場上有一些活動圍繞捕獲或總結公司會議中發生的事情,”Kenarsari-Anhari 說,引用了不想將專有信息提交到云中的公司,或者有大量數據需要轉錄的公司,在云中做這件事的成本太高了。
語音到文本引擎加入了該公司的兩個現有產品。第一個是喚醒詞引擎,可以定制為使用遷移學習快速、廉價地接受任何喚醒詞。
第二個是用于設備的語音到意圖引擎,可以理解有限域內的語音命令(例如要求打開或關閉燈)。
“如果我有一個定義明確的域,并且用戶要在該域中發出語音命令,我們可以在該域中進行自然語言理解,并且我們可以非常有效地做到這一點,整個模型小于半兆字節。這就是為什么我們可以在低于 1 美元的 MCU 上做到這一點,”Kenarsari-Anhari 說。“如果客戶想要制造智能冰箱,并使用一組定義的語音命令,我們將為該特定應用程序訓練模型,然后他們將其部署在他們的冰箱中,并向我們支付版稅。”
這個怎么運作
為了在小型 CPU 上運行自然語言處理模型,PicoVoice 發明了一種訓練模型的新方法,使模型更小,計算效率更高。
“我們查看目標設備上的指令集,并嘗試找到使用這些指令有效實施的數學運算,”Kenarsari-Anhari 說。“我們用不同的數學運算模擬矩陣乘法,使用該設備上的指令來實現更有效。”
這意味著經過訓練的模型是特定于設備的,因為它們取決于所使用的確切指令集,但他說,在實踐中,絕大多數音頻處理器僅基于三個選項(ARM、Tensilica HiFi 和 Ceva TeakLite)。
Alireza Kenarsari-Anhari
(圖片:PicoVoice)
“我們在這三種不同類型的 CPU 上找到了指令,我們可以在其中非常有效地實現模擬矩陣乘法的東西,”他說。“我們可以針對這三個不同的目標訓練模型,但是我們針對 ARM 訓練模型的方式與針對 Tensilica HiFi 訓練模型的方式不同。從用戶的角度來看,[模型] 提供了相似的性能,但底層的數學公式不同,這導致在目標設備上的高效執行。”
雖然 Kenarsari-Anhari 拒絕進一步詳細說明 PicoVoice 使用了哪些指令,但他表示基本概念類似于位于西雅圖的 Xnor,后者使用 XNOR 指令加速計算機視覺模型。然而,與基于循環神經網絡 (RNN) 的加速語音模型相比,通常基于卷積神經網絡 (CNN) 的加速視覺模型是一項更簡單的任務。
他解釋說,對于查看相機圖片的 CNN,模型看到的內容是有限的,但 RNN 包含時間的概念。
“通過語音,當我說話時,你的大腦會保存我所說的歷史,并用它來推斷我現在所說的,”他說。“加速 RNN 更難的原因是因為沒有記憶可以幫助你避免復合錯誤。加速模型中通常有更多的噪聲,而對于 RNN,噪聲會隨著時間的推移而累積,使神經網絡變得不穩定。”
收入來源
PicoVoice 的“不到 10 人”核心團隊大部分來自亞馬遜,其中包括 2018 年 1 月創辦公司的 Kenarsari-Anhari。PicoVoice 根據工業研究援助計劃 (IRAP) 獲得了加拿大國家研究委員會的資助,但迄今為止沒有其他外部資金。
Kenarsari-Anhari 說,不籌集資金的決定使公司有時間“解決實驗開發和應用研究的基本問題”。
該公司已經從包括 LG、惠而浦和 Local Motors 在內的眾多客戶那里獲得了收入來源。
審核編輯 黃昊宇
-
mcu
+關注
關注
146文章
17886瀏覽量
361604
發布評論請先 登錄
詳解 LLM 推理模型的現狀

中科馭數高性能網卡產品 成就DeepSeek推理模型網絡底座

英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
AI大模型在汽車應用中的推理、降本與可解釋性研究

評論