這次LiveVideoStackCon 2020 北京站,我們邀請到了曾任職于Apple、Facebook和Zoom的音視頻算法工程師郝一亞。一亞博士畢業于美國德州大學達拉斯分校,在校時是Statistical Signal Processing Research Lab的研究助理,專注于在助聽器上的語音數字信號處理算法。
2019年年底,郝一亞加入網易云信,研究范圍包括傳統信號處理算法和基于AI的算法。除了是人們口中的“程序員”,郝一亞還擁有街舞老師、兵乓球國家二級運動員等多重身份,參加過頂級歌手的世界巡演.......而當一名在美博士從灣區來到內地,他的生活又發生了怎樣的變化?
用郝一亞自己的話來說,就是“系統還是收斂穩定的”。
以下內容由LiveVideoStack與郝一亞的采訪整理而成LiveVideoStack:在您眾多的身份中,您更享受哪一個“自己”,對哪一個“自己”最滿意?開發者/程序員在這眾多的標簽中處于一個什么樣的位置?郝一亞:最享受的可能是作為Dancer/Choreographer的身份,最滿意的應該是Acoustic Engineer這個身份,因為自己能從很平常的聲音中聽出更多的信息,比如聲音有沒有distortion、每個人的pitch基頻、環境底噪的分貝數等等。開發者/程序員應該相當于我實現自己算法的一個途徑,要將自己聽到的和提出的算法應用于實際,都需要自己動手去寫出來。LiveVideoStack:在美國求學、工作的過程中,您最開心的時刻有哪些?郝一亞:應該是博士答辯完成,老板對我說“Congratulations, Dr. Hao”的時候,還有求婚成功的時候。LiveVideoStack:加入網易云信后,你的生活發生了哪些變化,喜和憂分別是什么?郝一亞:其實沒什么大憂,硬要說的話可能是上班時間增加導致家庭和個人時間太少。喜的方面其實挺多的,之前沒有在中國的公司待過,本來是做好了應對“壞情況”的心理準備,但實際工作中,團隊氛圍、專業程度、自己的適應狀態都達到了一個很好的正反饋系統中,用DSP的術語來說該系統還是收斂穩定的。音頻算法的迭代不是一個短平快項目,需要耐心的打磨和積累。而網易就是這樣的一個企業,以匠心致創新,這就是我選擇網易云信的最大原因。LiveVideoStack:云信每周四的程序員分享進展如何,最近又分享了哪些有意思的話題?郝一亞:我覺得周四的分享特別好,分享內容有廣度有深度。我自己印象最深的是音頻組同事講的那次關于音頻信號問題的分析,現場氣氛很好,大家都在踴躍地討論,而且分享后大家反饋也是說了解了很多音頻問題表象下的具體原因。雖然分享最后有點像音頻組的“甩鍋大會”了。LiveVideoStack:在您就職FB、Apple等互聯網公司期間,遇到過哪些印象深刻的技術難題,以及您是如何應對的?郝一亞:當時在Apple的時候,第一個落地的算法是結合一個新的sensor的一個音頻算法。當時難度挑戰是相關的paper很少,很多細節只能自己去摸索,我的應對辦法就是兩個字“加班”。
開個玩笑,是加了幾天班,但關鍵的策略是沒有急于求成,而是把sensor在各個產品下的指標都考慮到,測試好,打好基礎,前期工作做得好,制定方案就會很可行。Apple的音頻實驗室設備非常齊全,到了“要什么有什么”的境界,為工作提供了很多便利。LiveVideoStack:基于AI的算法產品化這一點,您有什么比較欣賞的平臺或產品嗎?郝一亞:在音頻領域,雖然現在AI音頻算法在產品落地上依然沒有普及開,但是Google在近幾年一直是這個領域的佼佼者,其次Amazon的Lab126在這個領域的研究也是非常超前的。LiveVideoStack:“將AI算法任務模塊化”具體是一個什么概念,有哪些實際用例?郝一亞:AI算法在實際應用當中有很多問題,在音視頻算法中,讓AI去處理一個鏈路很長的算法問題時,Model的效果、泛化能力、計算復雜度都很頭疼。如果是沿用傳統的算法,將傳統算法中的一個適合AI的模塊單獨拿出來,用訓練的Model來處理,這種方式往往在上述的三個維度都能有提升。LiveVideoStack:將具體技術“產品化“的過程中您遇到過哪些困難?郝一亞:主要的困難是算法的研究與產品的需求之間往往存在著差距,在云信的算法落地過程當中,穩定性和高可用性是我們的首要目標。在此基礎上,我們會不斷地去match產品的需求,分清需求的重要程度,不斷地對算法的細節進行調整。
LiveVideoStack:據您個人經驗,中美科技公司將音頻技術“產品化”的過程有何不同?郝一亞:其實中美公司在很多方面都已經比較接近了,在音頻技術“產品化”方面,美國和國內公司相比,唯一的不同可能在于其音頻技術產品化的流程比較清晰,音頻相關的儲備(比如音頻工具、消聲室、技術積累)比較完善。云信目前也有很多音頻相關儲備,比如Soundbooth、人工頭等工具,在傳統3A算法和AI算法上都有可觀的技術積累。LiveVideoStack:就您個人經驗,國內的公司需要如何快速彌補這一點不足;以及國內互聯網公司又有哪些令你欣賞的優勢呢?郝一亞:首先,這些不足沒法快速彌補。追趕的方式我認為還是積累更多相關的人才,還需要讓更多管理者認知到音頻開發和其他開發的不同之處(開發周期長,需要時間打磨與積累)。我認為國內現在最大的優勢在于國家層面開始重視音視頻技術,以及國內的消費能力和市場,這兩點足以支撐音頻領域的快速積累。LiveVideoStack:您現階段正在解決的問題?郝一亞:現在基于AI的音頻算法產品化的過程中,瓶頸依然是算法的泛化能力和Model復雜度,我們現在所專注的就是在不影響算法表現的情況下去提高泛化能力、降低計算量。LiveVideoStack:您下一階段的研發目標?郝一亞:更深入的去“模塊化”傳統的音頻算法,將更多的“小模塊”用AI替代。編輯:Coco Liang
原文標題:從舊金山到濱江區,系統依舊收斂穩定
文章出處:【微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
-
數字信號
+關注
關注
2文章
997瀏覽量
48363
原文標題:從舊金山到濱江區,系統依舊收斂穩定
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
無刷雙饋異步電機潮流建模和收斂性研究
亞成微智能高邊開關在商用車領域的應用

亞川科技 YCS-7000S 樓宇自控系統:構筑智能樓宇新生態

亞川科技變配電監控系統的優勢

亞川科技變配電監控系統:電力安全的智慧守護者

亞川樓宇自控系統,打造智慧生活新標桿
如何選擇是用銀河麒麟好還是星光麒麟好?

Vivado Design Suite用戶指南: 設計分析與收斂技巧

評論