智能語音是人工智能技術的重要組成部分,包括聲音前端信號處理、語音識別、語義理解、自然語言處理、語音合成等細分領域。在技術的具體落地中,消費級智能硬件是最早顯示出市場潛力的賽道,從藍牙耳機到可穿戴設備再到智能家居,各種產品都離不開相關的智能語音技術,而語音交互的第一步就是聽見,聲音前端信號處理的效果一定程度上制約了語音識別的效果,當前也有一些公司正在解決這一讓各類產品“聽得更清晰”的問題。
36氪日前接觸到的「大象聲科」,是一家專注于機器聽覺的人工智能公司。該公司于2017年在深圳成立,致力于應用深度學習變革傳統語音信號處理,讓機器擁有類似人耳一樣的聽覺感知能力。據了解,「大象聲科」技術的理論基礎為CASA(計算機聽覺場景分析)+DNN(深度神經網絡技術)。CASA 解決的問題是基于人的聽覺原理來實現聲源分離,該理論的奠基人汪德亮教授也是「大象聲科」的首席科學家和聯合創始人。公司通過將CASA和深度學習相結合,在業內首家成功實現大規模商用級的噪音和人聲的分離,后續有望進一步解決雞尾酒會問題。(注:雞尾酒會問題是語音識別領域的痛點和難點,人們在雞尾酒會中交談,語音信號會重疊在一起,機器需要將它們分離成獨立的信號)
公司創始人兼CEO苗健彰向記者對比了傳統信號處理和基于深度學習的信號處理方式的差別——傳統的數字信號處理方式主要依據固定噪音特性和方向,通過濾波器對信號進行相應的過濾和增強。但因為生活中的噪音不一定存在固定特性,并可能來自于各種方向反射,所以傳統方式或許無法徹底解決復雜噪聲環境中的問題。而CASA+DNN的方案是讓機器通過訓練獲得與人類聽覺感知相似的機制,從而去認知周邊的聲場環境,在復雜場景中提取、識別人聲。
在技術產業化這一塊,「大象聲科」首先從“降噪”切入,一方面解決通訊過程中的噪音干擾問題,讓人們在復雜的現實噪聲場景中擁有更加清晰、更加私密的通話體驗;另一方面解決語音識別中噪聲干擾問題,讓機器在“聽清”之后聽得“更懂”。為此,公司推出了Vocplus智能語音增強和Vocplus Smart智能語音交互方案,目前已經在手機、耳機、PC、對講機、VoIP、IoT等行業成功落地。
在研發過程中,苗健彰認為,把技術從理論進行工程落地轉化是最大的難點,其中將神經網絡小型化和模型的泛化是決定深度學習能否應用于實際產品中的重要環節。“大象聲科在這方面有一套獨特的技術,能夠在不損失精度的情況下,使得算法參數盡量少,計算速度盡量快,這也是為什么目前我們的深度學習降噪算法快速落地到像耳機這類可穿戴產品。另外,市面上已經有上千萬臺設備搭載了公司的算法,幫助公司沉淀了大量數據。大象聲科將人耳的聽覺機理與深度學習相結合,也大幅提升了算法的泛化性能,形成了較高的技術壁壘。”他介紹。
相較而言,公司目前在手機、耳機等消費電子行業有比較多的應用案例,這和行業本身的需求和規模相關。“現在中國絕大部分的手機品牌,比如小米、OPPO、vivo都已經有使用「大象聲科」的通話降噪技術(Vocplus Telecom)以及游戲抗嘯叫技術(DHS)的量產案例。”苗健彰說。在前不久發布的華為FreeLace Pro耳機上,也搭載了公司的Vocplus AI三麥通話降噪方案。
此外,自去年以來的TWS耳機增長浪潮,也讓越來越多的耳機廠商逐漸采納以AI技術為主導的通話降噪方案。「大象聲科」是率先在藍牙耳機上落地AI語音降噪的公司,首個成功量產案例是OPPO Enco Q1 。并且,2020年「大象聲科」與漫步者合作,成功落地了第一個AI算法結合骨傳導sensor的通話降噪方案,可以讓TWS耳機在通話時完全屏蔽周圍噪音(包含人聲噪音在內),實現私密性更強的通話體驗。
談及客戶方的具體考量維度,苗健彰介紹客戶主要會圍繞通話清晰度進行評價,在這方面,業內有一套衡量通話降噪效果的客觀標準3QUEST,測試指標包括:S-MOS(人聲保留程度),N-MOS(噪音消除程度),G-MOS(綜合通話降噪性能),而公司由于采用較獨特的AI技術,在測評中得以展現優勢。
在產業合作上,「大象聲科」目前已與Qualcomm,CEVA,Cirrus Logic,Infineon,Rockchip和BES等國內外知名芯片廠商建立合作關系。其中值得一提的是,公司在2018年拿到了小米和高通的融資,并在之后和高通一起進行聯合技術推廣,這也為公司在市場拓展和品牌建設方面提供了一定幫助。在收費模式上,大象有按照license授權和按項目收費兩種方式,當前license總裝機量在數千萬級別,今年的營收在數千萬元量級。
在未來的行業延展中,「大象聲科」計劃進一步完善整個語音技術鏈條,把應用場景從近場拓展到遠場,為更多行業如助聽器、智能家居、會議系統、智能車載等帶來更精準更智能的語音解決方案。
團隊方面,公司創始人兼CEO苗健彰UBC軟件工程學碩士畢業,曾就職于IBM、RBC等500強企業,并在加拿大成功創辦過一家軟件公司 。聯合創始人兼首席科學家汪德亮教授是計算機聽覺場景分析奠基人之一,也是全球首位將深度學習應用于語音增強的科學家。聯合創始人兼CTO張學良多年從事語音分離、增強算法研發工作,是內蒙古大學計算機學院教授。
-
人工智能
+關注
關注
1804文章
48726瀏覽量
246628 -
智能語音
+關注
關注
11文章
797瀏覽量
49387 -
深度學習
+關注
關注
73文章
5554瀏覽量
122494
原文標題:用深度學習改變語音信號處理,大象聲科讓機器像人耳一樣“聆聽”
文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
明遠智睿SSD2351開發板:語音機器人領域的變革力量
仿生傳感器:讓機器擁有“生命感知”的神奇科技
讓人形機器人像人一樣去感知,這家國產芯片公司選擇從信號鏈入手

海伯森技術推動機器人感知能力邁向新高度
為什么要費這么大勁讓機器人像人一樣,而不是更實用的形態?
40個激光雷達!蘋果布局機器人感知系統,讓碰撞降低63.7%

評論