女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

將語音到文本推理模型壓縮到小型 MCU

王靜 ? 來源:nhonglan ? 作者:nhonglan ? 2022-07-21 11:43 ? 次閱讀

來自加拿大初創公司的新技術意味著用于自然語言處理的 AI 模型可以在小型 CPU 甚至微控制器上高效運行。語音控制功能,現在通常通過互聯網連接到云來完成,現在可以添加到各種設備中。

初創公司 PicoVoice(加拿大溫哥華)推出了一個緊湊的語音到文本推理引擎,可以在最少的計算資源上運行。該公司表示,與競爭的邊緣自然語言處理解決方案相比,PicoVoice 技術在計算和內存方面使用的資源要少一個數量級。這可以在各種設備上啟用語音識別,而無需將任何數據發送到云端。

雖然云端處理模型對于亞馬遜 Alexa 和 Google Home 等助手來說是眾所周知的,但它可能無法轉化為需要嚴格隱私或低成本的邊緣設備中的語音識別。

PicoVoice 創始人兼總裁 Alireza Kenarsari-Anhari 表示:“隨著[支持語音的] 設備變得越來越普遍,在服務器端處理所有內容在財務上將無法正常工作。” “計算資源不是免費的。要為所有東西制作語音界面,你需要讓它足夠便宜。在設備上運行是做到這一點的唯一方法。”

例如,根據 Kenarsari-Anhari 的說法,使用公共云服務的聲控咖啡機,如果每天使用 10 次,每臺設備每年的成本約為 15 美元。

“如果您使用咖啡機 CPU 上已有的資源,您可以免費執行此操作,”他說。

根據具體的應用,在邊緣執行語音識別還可以提供更好的延遲和可靠性。

pYYBAGLXUXmANyZxADSFZ06vPZU925.jpg

語音激活助手,如 Amazon Alexa,使用云進行自然語言處理,但這種模式可能不適用于更便宜的設備(圖片:Loewe Technologies

語音轉文本

PicoVoice 的新產品是一種用于語音到文本轉錄的機器學習模型,它在小型 CPU 上運行,就像 Raspberry Pi Zero 上的 ARM11 內核一樣。該模型可以理解大約 200,000 個英語單詞,單詞錯誤率與基于云的家庭助手相當。這可以用于需要云外轉錄能力的設備。

“市場上有一些活動圍繞捕獲或總結公司會議中發生的事情,”Kenarsari-Anhari 說,引用了不想將專有信息提交到云中的公司,或者有大量數據需要轉錄的公司,在云中做這件事的成本太高了。

語音到文本引擎加入了該公司的兩個現有產品。第一個是喚醒詞引擎,可以定制為使用遷移學習快速、廉價地接受任何喚醒詞。

第二個是用于設備的語音到意圖引擎,可以理解有限域內的語音命令(例如要求打開或關閉燈)。

“如果我有一個定義明確的域,并且用戶要在該域中發出語音命令,我們可以在該域中進行自然語言理解,并且我們可以非常有效地做到這一點,整個模型小于半兆字節。這就是為什么我們可以在低于 1 美元的 MCU 上做到這一點,”Kenarsari-Anhari 說。“如果客戶想要制造智能冰箱,并使用一組定義的語音命令,我們將為該特定應用程序訓練模型,然后他們將其部署在他們的冰箱中,并向我們支付版稅。”

這個怎么運作

為了在小型 CPU 上運行自然語言處理模型,PicoVoice 發明了一種訓練模型的新方法,使模型更小,計算效率更高。

“我們查看目標設備上的指令集,并嘗試找到使用這些指令有效實施的數學運算,”Kenarsari-Anhari 說。“我們用不同的數學運算模擬矩陣乘法,使用該設備上的指令來實現更有效。”

這意味著經過訓練的模型是特定于設備的,因為它們取決于所使用的確切指令集,但他說,在實踐中,絕大多數音頻處理器僅基于三個選項(ARM、Tensilica HiFi 和 Ceva TeakLite)。

pYYBAGLO_PeAdmBnAAGjieDGWvk030.png

Alireza Kenarsari-Anhari
(圖片:PicoVoice)

“我們在這三種不同類型的 CPU 上找到了指令,我們可以在其中非常有效地實現模擬矩陣乘法的東西,”他說。“我們可以針對這三個不同的目標訓練模型,但是我們針對 ARM 訓練模型的方式與針對 Tensilica HiFi 訓練模型的方式不同。從用戶的角度來看,[模型] 提供了相似的性能,但底層的數學公式不同,這導致在目標設備上的高效執行。”

雖然 Kenarsari-Anhari 拒絕進一步詳細說明 PicoVoice 使用了哪些指令,但他表示基本概念類似于位于西雅圖的 Xnor,后者使用 XNOR 指令加速計算機視覺模型。然而,與基于循環神經網絡 (RNN) 的加速語音模型相比,通常基于卷積神經網絡 (CNN) 的加速視覺模型是一項更簡單的任務。

他解釋說,對于查看相機圖片的 CNN,模型看到的內容是有限的,但 RNN 包含時間的概念。

“通過語音,當我說話時,你的大腦會保存我所說的歷史,并用它來推斷我現在所說的,”他說。“加速 RNN 更難的原因是因為沒有記憶可以幫助你避免復合錯誤。加速模型中通常有更多的噪聲,而對于 RNN,噪聲會隨著時間的推移而累積,使神經網絡變得不穩定。”

收入來源

PicoVoice 的“不到 10 人”核心團隊大部分來自亞馬遜,其中包括 2018 年 1 月創辦公司的 Kenarsari-Anhari。PicoVoice 根據工業研究援助計劃 (IRAP) 獲得了加拿大國家研究委員會的資助,但迄今為止沒有其他外部資金。

Kenarsari-Anhari 說,不籌集資金的決定使公司有時間“解決實驗開發和應用研究的基本問題”。

該公司已經從包括 LG、惠而浦和 Local Motors 在內的眾多客戶那里獲得了收入來源。


審核編輯 黃昊宇
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • mcu
    mcu
    +關注

    關注

    146

    文章

    17886

    瀏覽量

    361604
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    詳解 LLM 推理模型的現狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優化推理能力的新策略開始出現,包括擴展推理時間計算、運用強化學習、開展監督微調和進行提煉等。本文
    的頭像 發表于 04-03 12:09 ?332次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現狀

    中科馭數高性能網卡產品 成就DeepSeek推理模型網絡底座

    的突破性進展,而且開源模型發展帶來部署成本的極速下降,為定制化AGI服務,推理本地化部署,帶來發展機遇,也掀起了新的一輪智算基礎設施建設浪潮。 與按Token生成數量計費的AI云服務模式不同,出于數據安全的考慮,很多用戶選擇采用本地化部署
    的頭像 發表于 03-31 11:56 ?233次閱讀
    中科馭數高性能網卡產品 成就DeepSeek<b class='flag-5'>推理模型</b>網絡底座

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發表于 03-20 15:03 ?581次閱讀

    AI大模型在汽車應用中的推理、降本與可解釋性研究

    佐思汽研發布《2024-2025年AI大模型及其在汽車領域的應用研究報告》。 推理能力成為大模型性能提升的驅動引擎 2024下半年以來,國內外大模型公司紛紛推出
    的頭像 發表于 02-18 15:02 ?1115次閱讀
    AI大<b class='flag-5'>模型</b>在汽車應用中的<b class='flag-5'>推理</b>、降本與可解釋性研究

    OpenAI O3與DeepSeek R1:推理模型性能深度分析

    OpenAI剛推出的O3和DeepSeek的R1代表了推理模型領域的重大進步。這兩種模型都因在各種基準測試中的出色表現而備受關注,引發了人們對人工智能的未來及其對各個行業的潛在影響的討論。據我們所知
    的頭像 發表于 02-18 11:07 ?871次閱讀

    科大訊飛發布星火深度推理模型X1

    今天,科大訊飛正式發布星火深度推理模型X1,星火4.0 Turbo底座全面升級,首發星火語音同傳大模型
    的頭像 發表于 01-15 15:54 ?654次閱讀

    科大訊飛即將發布訊飛星火深度推理模型X1

    近日,科大訊飛在1月7日成功舉辦的辦公智能體產品升級發布會上,宣布了一項令人振奮的新進展。據科大訊飛官方透露,公司將于1月15日正式對外發布其最新的“訊飛星火深度推理模型X1”。 這一新模型的發布
    的頭像 發表于 01-08 10:30 ?704次閱讀

    智譜推出深度推理模型GLM-Zero預覽版

    近日,智譜公司正式發布了其深度推理模型GLM-Zero的預覽版——GLM-Zero-Preview。這款模型標志著智譜在擴展強化學習技術訓練推理模型方面的重大突破,成為其首個專注于增強AI推理
    的頭像 發表于 01-03 10:42 ?467次閱讀

    智譜GLM-Zero深度推理模型預覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個基于擴展強化學習技術訓練的推理模型,標志著智譜在AI推理領域
    的頭像 發表于 01-02 10:55 ?484次閱讀

    阿里云發布開源多模態推理模型QVQ-72B-Preview

    近日,阿里云宣布了一項重大技術突破,正式發布了業界首個開源多模態推理模型——QVQ-72B-Preview。這一模型的問世,標志著阿里云在AI技術領域的又一次重要飛躍
    的頭像 發表于 12-27 10:28 ?545次閱讀

    OpenAI發布新一代推理模型o3及o3-mini

    近日,OpenAI在為期12天的發布會上宣布了新一代推理模型o3及其精簡版o3-mini。這兩款模型被專門設計用于在回答問題之前進行更深入的思考,以期提高答案的準確性。 據悉,o3模型
    的頭像 發表于 12-24 09:29 ?809次閱讀

    阿里云開源推理模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現了開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。 據評測數據顯示,QwQ預覽版本已具備研究生水平的科學
    的頭像 發表于 11-29 11:30 ?1089次閱讀

    Kimi發布新一代數學推理模型k0-math

    近日,Kimi正式推出了其新一代數學推理模型k0-math。據基準測試顯示,該模型的數學能力可與全球領先的OpenAI o1系列中的o1-mini和o1-preview模型相媲美。 在針對中考、高考
    的頭像 發表于 11-18 11:38 ?921次閱讀

    OpenAI即將發布“草莓”推理模型

    科技界迎來新動態,據可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項重大發布——預計在兩周內,正式推出名為“草莓”的新型AI推理模型,并將其無縫融入ChatGPT服務中。這款以卓越推理能力為核心的大
    的頭像 發表于 09-11 16:53 ?787次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型
    的頭像 發表于 07-24 11:38 ?1681次閱讀