科學家們通過記錄海洋、叢林、森林以及其他自然環境中的動物聲音來研究本地的動物種群已有30多年的歷史了。他們利用這些結果來評估人為噪音對自然環境的影響,監控瀕危動物種群和調查動物之間的交流。由于缺少高級算法和處理能力,科學家們面對被動的聲學監控系統產生的數百萬兆聲音數據,通常1%都處理不了。
挑戰
康奈爾鳥類學實驗室研究生物聲學的科學家們必須應對來天氣、其他動物和附近機械及車輛的噪音。同一物種動物聲音存在的個體差異增加了復雜性。噪音和變化性這兩個因素增加了漏報和誤報的數量,使檢測算法的準確性下降。
另一個挑戰是處理BRP正在收集的數億兆的數據。一個典型的項目包括處理在多個信道上記錄的數年的原始聲學數據(高達10TB)。每個信道均可采集數億的事件——在頻譜圖上發生突變的聲音數據。將在小型高質量樣本上測試的算法應用于噪音更大的較大數據集時往往不太準確。
最后,BRP分析工具必須服務于廣泛的研究計劃、環境和移動需求。Clark博士說:“回答我們的初始研究問題經常會通向將要探索的全新領域,我們需要能夠處理需求的突然變化。"
解決方案
BRP數據科學家們使用MATLAB開發高性能計算 (HPC) 軟件以自動處理聲學數據。
檢測分類項目首先是收集希望檢測到的動物音頻剪輯、動物所處環境中的背景噪音剪輯以及歸檔的聲學數據的MAT文件。使用MATLAB時,他們開發新算法或優化現有算法,在與剪輯目錄相似的歸檔數據中檢測音頻順序。
這些算法使用Image Processing Toolbox和Signal Processing Toolbox支持的模式匹配、邊緣檢測、連接的區域分析、卷積和其他技術以及Fuzzy Logic Toolbox和Neural Network Toolbox支持的機器學習技術。為了評估算法的準確性,科學家使用Statistics Toolbox來計算受試者工作特征 (ROC) 和其他性能曲線。
使用Parallel Computing Toolbox在小型數據集上調試和優化算法后,科學家們使用MATLAB Distributed Computing Server在64個worker的集群上對所有存檔數據進行了運算。
BRP團隊開發了一個MATLAB界面,使科學家可以指定算法、數據集和處理器的數量。除了檢測和分類算法外,BRP使用MATLAB進行噪音分析和聲學建模,在這個過程中他們采集海洋或陸地環境的時間和頻率分布影響并進行仿真。
結果
將開發時間縮短了數年。Dugan博士說:“對預測成本的一項研究顯示,如果我們必須依靠自己來完成這些任務,那么開發我們所需的這種HPC平臺將花費三年的時間和100萬美元的成本,并且還需要許多的外部幫助。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我們不到三個月就完成了平臺的開發。”
分析時間從幾周縮減為幾小時。Dugan博士說:“使用我們的一個算法處理90的數據需要19周的時間。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我們在集群上只用了8個小時便完成了同一個分析。”
在幾天內完成以前未能處理的數據的分析。Dugan博士說:“一個數據集采集了100,000小時的聲音。它是如此巨大以至于以前我們連1%都處理不了,根據預估,需要一年或更長的時間來處理剩余的數據。而借助我們的MATLAB HPC平臺后,在兩天內,我們對該數據進行了六次處理,且每次均使用了不同的檢測算法。”
-
數據采集
+關注
關注
40文章
6956瀏覽量
115710 -
高性能
+關注
關注
0文章
197瀏覽量
20815 -
機器學習
+關注
關注
66文章
8492瀏覽量
134097
發布評論請先 登錄
高性能計算面臨的芯片挑戰

中科曙光助力中國商飛高性能計算平臺落地
Condor使用Cadence托管云服務開發高性能RISC-V微處理器
云原生LLMOps平臺作用
Triton編譯器在高性能計算中的應用
SiFive 推出高性能 Risc-V CPU 開發板 HiFive Premier P550

利用NVIDIA RAPIDS加速DolphinDB Shark平臺提升計算性能

名單公布!【書籍評測活動NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架構分析
帶你了解什么是高性能計算(HPC)

評論