作者:Arm 終端事業部產品管理總監 Ronan Naughton
想象一下,你正在智能手機上編輯視頻,需要為其添加合適的音效;或是你想要生成自定義聲音,用于設置鈴聲、鬧鐘或發布社交媒體帖子。你無需在網上搜索或購買音頻片段,只需輸入一段描述,例如“日落時的輕柔海浪聲”,幾秒鐘后,你的設備就會為你生成合適的聲音,甚至無需聯網就可實現。得益于 Arm 和 Stability AI 的新合作,這種完全在端側直接生成音頻的技術已變為現實。
Arm 與 Stability AI 攜手合作,加快文本轉音頻的響應速度
Stability AI 是一家專注于圖像、視頻、3D 和音頻領域人工智能 (AI) 模型開發的公司。而 Arm KleidiAI 能夠提供專門針對 Arm CPU 的經優化的性能關鍵例程(即微內核)。通過 KleidiAI 與 XNNPack 庫和 ExecuTorch 框架的集成,以及 Stability AI 自身的優化,為 Stability AI 的文本轉音頻開放模型“Stable Audio Open”帶來了顯著的 AI 性能提升。
令人驚嘆的結果包括文本轉音頻的 AI 生成時間從幾分鐘大幅縮短至幾秒鐘,響應速度提高了 30 倍。Stable Audio Open 模型完全在基于 Arm CPU 的智能手機上運行,且無需聯網,對于文本轉音頻 AI 來說是首創之舉。
Stability AI 利用 KleidiAI 自動加速功能,加快模型的響應速度,從而在不影響質量的情況下提升了端側 AI 性能。KleidiAI 帶來的性能提升,無需 Stable Audio Open 模型用戶額外投入開發精力,節省了時間和成本。Arm 和 Stability AI 將繼續合作,以實現更多性能的躍升,帶來更為出色的 AI 用戶體驗。
顯著的性能提升表明,具有針對性的硬件和軟件集成,使過往無法實現的 AI 應用在移動端變得可行,從而推動了未來的創新機遇。Arm 技術驅動了全球 99% 的智能手機,這也意味著數十億智能手機用戶現可取得先進的 AI 音頻功能。
共同應對復雜的 AI 挑戰
Stable Audio Open 模型具備出色的效率,但在智能手機的 CPU 上直接由端側運行該模型仍非易事。在初期嘗試時,單個音頻樣本的生成時間超過四分鐘,這對終端用戶而言不太能接受。
通過與 Arm 合作,Stability AI 將模型的訓練參數量蒸餾到適合移動端的規模。然后,通過新的蒸餾模型,并利用 XNNPack 與 ExecuTorch 集成帶來的 KleidiAI 性能加速,實現了在移動端 Arm CPU 上幾秒內就生成音頻片段。
Stability AI 首席執行官 Prem Akkaraju 表示:隨著越來越多的專業創意工作者和企業采用生成式 AI 來幫助提升其生產流程,我們的模型和工作流必須隨處可得,以供構建者和創作者使用,這一點至關重要。我們很高興能就此與 Arm 合作。從服務器到智能手機,Arm 平臺在整個生態系統中應用普及,并且 Arm 通過將 Arm Kleidi 集成到軟件棧中,致力于加速各類主流框架中的 AI 模型,因此 Arm 是我們的不二之選。
文本轉音頻 AI 的興起
自 2022 年以來,Stability AI 始終立于生成式 AI 發展的前沿,曾憑借行業領先的圖像模型 Stable Diffusion 引起轟動。依托 Stable Diffusion 的成功,該公司隨后推出了 Stable Audio,這是首個完全獲得授權的音頻模型之一,專為通過文本提示詞生成高質量的音樂和音效而設計。這些 AI 模型在 Hugging Face 等主要平臺上均排名前茅,擁有多達數百萬規模的用戶數,構成了一個活躍的技術社區。
人人皆可享先進的音頻 AI 體驗
這一成果僅僅只是雙方合作的開始,Arm 和 Stability AI 已規劃了更多的性能優化舉措,旨在為用戶帶來更加出色的使用體驗。通過攜手合作,Arm 正在為音頻、圖像、視頻和 3D 領域的端側 AI 打好基礎,重塑每個人創作內容和與數字媒體互動的方式。通過蒸餾先進的模型并利用經過優化的軟件,部署到人們常用的硬件設備上,從而為未來鋪平道路,實現人人都能通過口袋里的設備直接享受先進的 AI 應用、模型和體驗。
-
ARM
+關注
關注
134文章
9308瀏覽量
375027 -
音頻
+關注
關注
29文章
3023瀏覽量
83041 -
AI
+關注
關注
87文章
34223瀏覽量
275383 -
人工智能
+關注
關注
1804文章
48708瀏覽量
246501
原文標題:加快 30 倍!Arm Kleidi 賦能端側音頻生成提速
文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Arm 與微軟合作,為基于 Arm 架構的 PC 和移動設備應用提供超強 AI 體驗

Arm與微軟合作加速邊緣設備上的AI體驗
WT588F語音芯片響應時間深度解析:從指令觸發到音頻播放的技術全貌

Banana Pi 與瑞薩電子攜手共同推動開源創新:BPI-AI2N
《AI Agent 應用與項目實戰》閱讀心得3——RAG架構與部署本地知識庫
Arm 年度技術大會: 預計2025 年底,全球將有超過 1,000 億臺具備 AI 能力的 Arm 設備

Arm與ExecuTorch合作加速端側生成式AI實現
ADS1246輸出Data的響應速度可以達到100ms嗎?
如何提升 ChatGPT 的響應速度
神盾集團與Arm達成合作,推動AI HPC晶片創新
usb轉音頻線是怎么連接的
Arm如何賦能無處不在的AI
谷歌Gemini 1.5 Flash模型升級,AI聊天速度飆升50%
NVIDIA 攜手全球合作伙伴推出 NIM Agent Blueprints,助力企業打造屬于自己的 AI

評論