通過機器學(xué)習(xí),開發(fā)者和工程師能夠在應(yīng)用中解鎖新的功能。您可以為應(yīng)用所需的分類任務(wù)收集大量的數(shù)據(jù),并訓(xùn)練一個 ML 模型從數(shù)據(jù)中的模式里學(xué)習(xí),而不是明確地定義計算機需要執(zhí)行的指令和規(guī)則。
訓(xùn)練通常在計算機上的云端進行,而此類計算機會配備一個或多個 GPU。完成模型的訓(xùn)練之后,根據(jù)模型大小,可以將其部署在各種設(shè)備上進行推理。這些設(shè)備的范圍很廣,從云端擁有數(shù)千兆字節(jié)內(nèi)存的大型計算機,到通常只有數(shù)千字節(jié)內(nèi)存的微控制器(或 MCU),悉數(shù)在內(nèi)。
微控制器是低功率、獨立、經(jīng)濟高效的計算機系統(tǒng),日常使用的設(shè)備(如微波爐、電動牙刷或智能門鎖)中均有嵌入。基于微控制器的系統(tǒng)通常通過一個或多個傳感器(例如:按鈕、麥克風(fēng)、運動傳感器)與周圍環(huán)境互動,并使用一個或多個執(zhí)行器(例如:LED、電機、揚聲器)來執(zhí)行動作。
微控制器還具有隱私方面的優(yōu)勢,可以在設(shè)備上開展本地推理,而無需向云端發(fā)送任何數(shù)據(jù)。對于依靠電池運行的設(shè)備來說,微控制器還具有能耗方面的優(yōu)勢。
在本文中,我們將介紹如何將基于 Arm Cortex-M 的微控制器用于本地設(shè)備端 ML,以檢測周圍環(huán)境中的音頻事件。這是一篇教程式的文章,我們將指導(dǎo)您訓(xùn)練一個基于 TensorFlow 的音頻分類模型,來檢測火災(zāi)警報的聲音。
Arm Cortex-M
https://developer.arm.com/ip-products/processors/cortex-m
我們將介紹如何使用適用于微控制器的 TensorFlow Lite(具有 Arm CMSIS-NN 加速內(nèi)核),將 ML 模型部署到基于 Arm Cortex-M0+ 的微控制器板上,來進行本地設(shè)備端 ML 推理。
適用于微控制器的 TensorFlow Lite
https://tensorflow.google.cn/lite/microcontrollers
CMSIS-NN
https://arm-software.github.io/CMSIS_5/NN/html/index.html
Arm Cortex-M0+
https://developer.arm.com/ip-products/processors/cortex-m/cortex-m0-plus
Arm 的 CMSIS-DSP 庫為 Arm Cortex-M 處理器提供了優(yōu)化的數(shù)字信號處理 (DSP) 功能實現(xiàn),同時也將用于推理前從實時音頻數(shù)據(jù)中提取特征。
CMSIS-DSP
https://arm-software.github.io/CMSIS_5/DSP/html/index.html
雖然本指南側(cè)重于介紹火災(zāi)警報聲音的檢測,但也可以適用于其他聲音分類任務(wù)。您可能還需要調(diào)整特征提取階段和/或調(diào)整 ML 模型架構(gòu),以適應(yīng)您的用例。
在 Google Colab 上可查看本教程的互動版本,本指南的所有技術(shù)資料都可在 GitHub 上找到。
Google Colab
https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb
GitHub
https://github.com/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico
事前準(zhǔn)備
開發(fā)環(huán)境
Google Colab
https://colab.research.google.com/notebooks/
硬件
需要下列開發(fā)板之一,這些開發(fā)板均依托于 2021 年初發(fā)布的 Raspberry Pi 的 RP2040 MCU 芯片構(gòu)建而成。
Raspberry Pi 的 RP2040 MCU
“https://www.raspberrypi.org/products/rp2040/
SparkFun RP2040 MicroMod 和 MicroMod ML 載板
此開發(fā)板很適合剛接觸電子行業(yè)和微控制器的人。不需要電烙鐵,不需要掌握焊接技術(shù),也不需要掌握在電路板上接線的技術(shù)。
SparkFun MicroMod RP2040 處理器。它是操作的大腦,具有 Raspberry Pi 的 RP2040 MCU 和 16MB 的閃存
SparkFun MicroMod RP2040 處理器
https://www.sparkfun.com/products/17720
SparkFun MicroMod 機器學(xué)習(xí)載板。它支持 USB 連接,并附帶內(nèi)置的麥克風(fēng)、IMU 和攝像頭連接器
SparkFun MicroMod 機器學(xué)習(xí)載板
https://www.sparkfun.com/products/16400
一條 USB-C 數(shù)據(jù)線,用于連接開發(fā)板和計算機
一把十字螺絲刀
Raspberry Pi Pico 和 PDM 麥克風(fēng)板
如果您已掌握(或者想學(xué)習(xí))焊接技術(shù),那么這個選項非常適合您。它需要用到電烙鐵,還需要了解如何用電子元件在電路板上布線。您將需要:
Raspberry Pi Pico
Raspberry Pi Pico
https://www.raspberrypi.org/products/raspberry-pi-pico/
Adafruit PDM MEMS 麥克風(fēng)分接板
Adafruit PDM MEMS 麥克風(fēng)分接板
https://colab.research.google.com/notebooks/
半尺寸或全尺寸的電路板
跳線
一條 USB-B 微數(shù)據(jù)線,用于連接開發(fā)板和計算機
電烙鐵
以上兩個選項都可以幫助您使用數(shù)字麥克風(fēng)收集實時的 16 kHz 音頻,并利用開發(fā)板的 Arm Cortex-M0+ 處理器處理音頻信號,該處理器的工作頻率為 125 MHz。在 Arm Cortex-M0+ 上運行的應(yīng)用將經(jīng)過一個數(shù)字信號處理 (DSP) 階段,從音頻信號中提取特征。然后,將提取出的特征饋送至神經(jīng)網(wǎng)絡(luò),以執(zhí)行分類任務(wù),確定開發(fā)板的環(huán)境中是否存在火災(zāi)警報的聲音。
數(shù)據(jù)集
我們首先使用 ESC-50:環(huán)境聲音分類數(shù)據(jù)集,通過 TensorFlow 來訓(xùn)練一個聲音分類器(面向多個事件)。利用這個內(nèi)容廣泛的數(shù)據(jù)集進行訓(xùn)練后,我們將使用遷移學(xué)習(xí),針對特定音頻分類任務(wù),對分類器進行微調(diào)。
ESC-50:環(huán)境聲音分類數(shù)據(jù)集
https://github.com/karolpiczak/ESC-50
遷移學(xué)習(xí)
https://developers.google.com/machine-learning/glossary#transfer-learning
利用包含 50 種聲音的 ESC-50 數(shù)據(jù)集訓(xùn)練這個模型。每個聲音類別有 40 個音頻文件,每個文件時長為 5 秒。將每個音頻文件分割成 1 秒的聲音片段,并舍棄任何包含純靜音的聲音片段。
犬吠數(shù)據(jù)集中的樣本波形
聲譜圖
不同于將時間序列數(shù)據(jù)直接傳入 TensorFlow 模型,我們會將音頻數(shù)據(jù)轉(zhuǎn)換為音頻聲譜圖表征。此舉將創(chuàng)建音頻信號頻率內(nèi)容隨時間變化的二維表征。
所用輸入音頻信號的采樣率將為 16 kHz,這意味著一秒鐘的音頻將包含 16,000 個樣本。通過使用 TensorFlow 的 tf.signal.stft(。..) 函數(shù),我們可以將 1 秒的音頻信號轉(zhuǎn)換為二維張量表征。我們將選擇 256 的幀長和 128 的幀步長,所以此特征提取階段的輸出將為張量,其形狀為 (124, 129)。
TensorFlow 的 tf.signal.stft(。..) 函數(shù)
https://tensorflow.google.cn/api_docs/python/tf/signal/stft
犬吠的聲譜圖表征
ML 模型
從音頻信號中提取了特征之后,就可以使用 TensorFlow 的 Keras API 創(chuàng)建模型。上文有完整的代碼鏈接。模型由 8 層組成:
Keras
https://tensorflow.google.cn/guide/keras/sequential_model
1. 輸入層
2. 預(yù)處理層,將把輸入張量從 124x129x1 調(diào)整為 32x32x1
3. 歸一化層,在 -1 和 1 之間對輸入值進行調(diào)整
4. 具有以下配置的二維卷積層:8 個過濾器,內(nèi)核大小為 8x8,跨度為 2x2,使用 ReLU 激活函數(shù)
5. 大小為 2x2 的二維最大池化層
6. 平面化層,對二維數(shù)據(jù)進行平面化,令其變?yōu)橐痪S
7. Dropout 層,有助于減少訓(xùn)練中的過度擬合
8. 密集層,有 50 個輸出和一個 softmax 激活函數(shù),用于輸出聲音屬于某一類別的可能性(值在 0 到 1 之間)
以下為該模型的摘要:
請注意,此模型只有約 15,000 個參數(shù)(這相當(dāng)小!)
微調(diào)
現(xiàn)在,我們將使用遷移學(xué)習(xí),并改變模型的分類頭(最后一個密集層),以訓(xùn)練火災(zāi)警報聲的二進制分類模型。我們已從 freesound.org 和 BigSoundBank.com 收集了 10 個火災(zāi)警報片段。對于非火災(zāi)警報聲,我們將使用來自 SpeechCommands 數(shù)據(jù)集的背景噪音片段。此數(shù)據(jù)集很小,但足夠入門使用。數(shù)據(jù)增強技術(shù)將被用于完善我們所收集的訓(xùn)練數(shù)據(jù)。
freesound.org
https://freesound.org/
BigSoundBank.com
https://bigsoundbank.com/
SpeechCommands
https://tensorflow.google.cn/datasets/catalog/speech_commands
對于實際應(yīng)用而言,務(wù)必要收集更大的數(shù)據(jù)集(您可以在 TensorFlow 的 Responsible AI 網(wǎng)站上詳細了解最佳做法)。
Responsible AI 網(wǎng)站
https://tensorflow.google.cn/responsible_ai
數(shù)據(jù)增強
數(shù)據(jù)增強是一套用于擴大數(shù)據(jù)集規(guī)模的技術(shù)。達成此目標(biāo)的方法是,稍微修改數(shù)據(jù)集中的樣本或創(chuàng)建合成數(shù)據(jù)。在本例中使用的是音頻,并將創(chuàng)建一些函數(shù)來增加不同的樣本。我們將使用三種技術(shù):
1. 在音頻樣本中添加白噪聲
2. 在音頻中隨機添加靜音
3. 將兩個音頻樣本混合在一起
除了擴大數(shù)據(jù)集,數(shù)據(jù)增強也可以在不同的(不完美的)數(shù)據(jù)樣本上訓(xùn)練模型,以此來減少過度擬合。例如,在微控制器上不可能有完美的高質(zhì)量音頻,所以此類技術(shù)(例如添加白噪聲)可以幫助模型在麥克風(fēng)可能經(jīng)常有噪聲的情況下正常運作。
GIF:數(shù)據(jù)增強如何通過增加噪聲來微調(diào)聲譜圖
(仔細看,可能不太容易看清)
特征提取
適用于微控制器的 TensorFlow Lite (TFLu) 提供了 TensorFlow 操作的一個子集,所以無法使用我們在 MCU 上用于基線模型特征提取的 tf.signal.sft(。..) API。然而,我們可以利用 Arm 的 CMSIS-DSP 庫,在 MCU 上生成聲譜圖。CMSIS-DSP 包含對浮點和定點 DSP 操作的支持,這些操作均針對 Arm Cortex-M 處理器進行了優(yōu)化,其中便包括我們要向其部署 ML 模型的 Arm Cortex-M0+。Arm Cortex-M0+ 不包含浮點單元 (FPU),因此最好在開發(fā)板上利用基于特征提取流水線的 16 位定點 DSP。
我們可以在 Notebook 中利用 CMSIS-DSP 的 Python 封裝容器,使用 16 位定點數(shù)學(xué)在我們的訓(xùn)練流水線上進行同樣的操作。在較高級別上,我們可以通過以下基于 CMSIS-DSP 的操作來復(fù)制 TensorFlow SFT API:
CMSIS-DSP 的 Python 封裝容器
https://github.com/ARM-software/CMSIS_5/tree/develop/CMSIS/DSP/PythonWrapper#readme
1. 使用漢寧窗 (Hanning Window) 公式和 CMSIS-DSP 的 arm_cos_f32 API,手動創(chuàng)建一個長度為 256 的漢寧窗。
arm_cos_f32
https://arm-software.github.io/CMSIS_5/DSP/html/group__cos.html#gace15287f9c64b9b4084d1c797d4c49d8
2. 創(chuàng)建一個 CMSIS-DSP arm_rfft_instance_q15 實例,并使用 CMSIS-DSP 的 arm_rfft_init_q15 API 對其進行初始化。
arm_rfft_init_q15
https://arm-software.github.io/CMSIS_5/DSP/html/group__RealFFT.html#ga053450cc600a55410ba5b5605e96245d
3. 循環(huán)播放音頻數(shù)據(jù),每次 256 個樣本,跨度為 128(這與我們傳入 TF sft API 的參數(shù)一致)
使用 CMSIS-DSP 的 arm_mult_q15 API,將 256 個樣本與漢寧窗相乘
arm_mult_q15
https://arm-software.github.io/CMSIS_5/DSP/html/group__BasicMult.html#gaeeda8cdc2c7e79c8a26e905342a0bb17
使用 CMSIS-DSP 的 arm_rfft_q15 API 計算上一步輸出的 FFT
arm_rfft_q15
https://arm-software.github.io/CMSIS_5/DSP/html/group__RealFFT.html#ga00e615f5db21736ad5b27fb6146f3fc5
使用 CMSIS-DSP 的 arm_cmplx_mag_q15 API 計算上一步的幅度
arm_cmplx_mag_q15
https://arm-software.github.io/CMSIS_5/DSP/html/group__cmplx__mag.html#ga0488e185f4631ac029b02f1759b287cf
4. 每個音頻片段的 FFT 幅度代表聲譜圖的一列。
5. 由于我們的基線模型適合使用浮點輸入,而不是我們使用的 16 位量化值,CMSIS-DSP arm_q15_to_float API 可以用來將聲譜數(shù)據(jù)從 16 位定點值轉(zhuǎn)換為用于訓(xùn)練的浮點值。
arm_q15_to_float
https://arm-software.github.io/CMSIS_5/DSP/html/group__q15__to__x.html#ga5a75381e7d63ea3a3a315344615281cf
這個模型的完整版 Python 代碼有點長,但可以在 Google Colab notebook 的“遷移學(xué)習(xí) -》 加載數(shù)據(jù)集”部分中加以查看。
Google Colab notebook 的“遷移學(xué)習(xí) -》 加載數(shù)據(jù)集”部分
https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb
煙霧報警器聲音的波形和音頻譜圖
若要進一步了解如何使用 CMSIS-DSP 的定點操作創(chuàng)建音頻聲譜圖,請參見 Towards Data Science 中的“數(shù)據(jù)研究員的定點 DSP (Fixed-point DSP for Data Scientists)”指南。
Towards Data Science 中的“數(shù)據(jù)研究員的定點 DSP (Fixed-point DSP for Data Scientists)”指南
https://towardsdatascience.com/fixed-point-dsp-for-data-scientists-d773a4271f7f
加載基線模型并改變分類頭
我們之前利用 ESC-50 數(shù)據(jù)集訓(xùn)練的模型預(yù)測了 50 個聲音類型的存在,這導(dǎo)致模型的最后密集層有 50 個輸出。我們想創(chuàng)建的新模型是二進制分類器,需要有單一的輸出值。
我們將加載基線模型,還將換掉最后的密集層,以滿足我們的需要:
# We need a new head with one neuron.
model_body = tf.keras.Model(inputs=model.input, outputs=model.layers[-2].output)
classifier_head = tf.keras.layers.Dense(1, activation=“sigmoid”)(model_body.output)
fine_tune_model = tf.keras.Model(model_body.input, classifier_head)
于是就有了以下的 model.summary():
遷移學(xué)習(xí)
遷移學(xué)習(xí)是對一個任務(wù)開發(fā)的模型進行再訓(xùn)練,以完成類似的新任務(wù)的過程。其理念是,該模型已經(jīng)學(xué)會了可遷移的“技能”,其權(quán)重和偏差可以在其他模型中作為起點。
我們?nèi)祟愐矔褂眠w移學(xué)習(xí),例如為學(xué)習(xí)走路而培養(yǎng)的技能也可在以后用于學(xué)習(xí)跑步。
在神經(jīng)網(wǎng)絡(luò)中,模型的前幾層會開始進行“特征提取”,如尋找形狀、邊緣和顏色。系統(tǒng)會將之后的幾層用作分類器;這些層會利用提取的特征,并對特征進行分類。
正因為如此,我們可以認(rèn)為前幾層已經(jīng)學(xué)會了相當(dāng)通用的特征提取技術(shù),并可將其應(yīng)用于類似的任務(wù),因此我們可以凍結(jié)所有這些層,在未來的新任務(wù)中加以使用。需要根據(jù)新任務(wù)對分類器層進行訓(xùn)練。
為了實現(xiàn)這個目標(biāo),我們將進程分為兩步:
1. 凍結(jié)模型的“主干”,以超高的學(xué)習(xí)率訓(xùn)練頭部。慢慢降低學(xué)習(xí)率。
2. 解凍“主干”,以低學(xué)習(xí)率微調(diào)模型每。
若要在 TensorFlow 中凍結(jié)一個層,我們可以設(shè)置 layer.trainable=False。循環(huán)操作所有層,并執(zhí)行以下操作:
for layer in fine_tune_model.layers:
layer.trainable = False
然后解凍最后一層(頭部):
fine_tune_model.layers[-1].trainable = True
我們現(xiàn)在可以使用二進制交叉熵損失函數(shù)來訓(xùn)練模型。還將使用 Keras 的早停回調(diào)(以避免過度擬合)和動態(tài)學(xué)習(xí)率調(diào)度器。
用凍結(jié)的層進行訓(xùn)練后,可以對其進行解凍:
for layer in fine_tune_model.layers:
layer.trainable = True
然后再次進行訓(xùn)練(最多 10 次)。您可以在 Colab notebook 的“遷移學(xué)習(xí) -》 訓(xùn)練模型”部分中查看完整的代碼。
Colab notebook 的“遷移學(xué)習(xí) -》 訓(xùn)練模型”部分
https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb#scrollTo=Replace_Baseline_Model_Classification_Head_and_Train_Model
記錄您自己的訓(xùn)練數(shù)據(jù)
現(xiàn)在已得到 ML 模型,可以對出現(xiàn)的火災(zāi)報警聲進行分類。然而,此模型的訓(xùn)練是根據(jù)公開的聲音記錄訓(xùn)練而成,可能與用于推理的硬件麥克風(fēng)的聲音特征不一致。
Raspberry Pi RP2040 MCU 帶有原生的 USB 功能,可以讓其像自定義 USB 設(shè)備一樣運行。可以在開發(fā)板上刷寫一個應(yīng)用,讓它能夠像 USB 麥克風(fēng)一樣連在我們的 PC上。然后,可以用 Google Chrome 等流行的網(wǎng)絡(luò)瀏覽器上的網(wǎng)絡(luò)音頻 API 來擴展 Google Colab 的功能,收集實時數(shù)據(jù)樣本(所有這些都可通過 Google Colab 而得!)
網(wǎng)絡(luò)音頻 API
https://developer.mozilla.org/en-US/docs/Web/API/Web_Audio_API
硬件設(shè)置
SparkFun MicroMod RP2040
在組裝時,卸下載板上的螺絲,以一定的角度將 MicroMod RP2040 處理器板滑入插座,并用螺絲將其固定。更多詳情請參見 MicroMod 機器學(xué)習(xí)載板連接指南。
MicroMod 機器學(xué)習(xí)載板連接指南
https://learn.sparkfun.com/tutorials/micromod-machine-learning-carrier-board-hookup-guide?_ga=2.90268890.1509654996.1628608170-268367655.1627493370#hardware-hookup
Raspberry Pi Pico
按照“利用 Raspberry Pi Pico 創(chuàng)建 USB 麥克風(fēng)”指南中的硬件設(shè)置部分的說明進行組裝。
“利用 Raspberry Pi Pico 創(chuàng)建 USB 麥克風(fēng)”指南中的硬件設(shè)置部分
https://www.hackster.io/sandeep-mistry/create-a-usb-microphone-with-the-raspberry-pi-pico-cc9bd5#toc-hardware-setup-5
Fritzing 布線圖
組裝好的電路
設(shè)置固件應(yīng)用工具鏈
無需在個人計算機上設(shè)置 Raspberry Pi Pico 的 SDK。我們可以利用 Colab 內(nèi)置的 Linux shell 命令特征,用 CMake 和 GNU Arm 嵌入工具鏈設(shè)置 Pico SDK 開發(fā)環(huán)境。
CMake
https://cmake.org”
GNU Arm 嵌入工具鏈
https://developer.arm.com/tools-and-software/open-source-software/developer-tools/gnu-toolchain/gnu-rm
還要用 git 將 pico-sdk 下載到 Colab 實例中:
pico-sdk
https://github.com/raspberrypi/pico-sdk
%%shell
git clone https://github.com/raspberrypi/pico-sdk.git
cd pico-sdk
git submodule init
git submodule update
編譯并刷寫 USB 麥克風(fēng)應(yīng)用
現(xiàn)在可以使用 Pico 的麥克風(fēng)庫中的 USB 麥克風(fēng)示例。可以用 cmake 和 make 對此示例應(yīng)用進行編譯。然后,通過 USB 將示例應(yīng)用刷寫到電路板上,將電路板調(diào)至“啟動 ROM 模式”,這樣就可以將應(yīng)用上傳到電路板上。
Pico 的麥克風(fēng)庫
https://github.com/ArmDeveloperEcosystem/microphone-library-for-pico
SparkFun
將 USB-C 數(shù)據(jù)線插入電路板和個人計算機,為電路板供電。
按住電路板上的 BOOT 按鈕,同時按 RESET 按鈕。
Raspberry Pi Pico
將 Micro USB 線插入個人計算機,但不要插入 Pico 一側(cè)。
按住白色 BOOTSEL 按鈕,同時將 Micro USB 線插入 Pico。
如果您使用的是支持 WebUSB API 的瀏覽器,如 Google Chrome,則可以直接從 Google Colab 中把圖像刷寫到板上!
WebUSB API
https://wicg.github.io/webusb/
從 Google Colab 和 WebUSB 中將 USB 麥克風(fēng)應(yīng)用下載到板上
除此之外,您還可以手動將 .uf2 文件下載到計算機,然后把它拖到 RP2040 板的 USB 磁盤上。
收集訓(xùn)練數(shù)據(jù)
將 USB 麥克風(fēng)應(yīng)用刷寫到板上之后,它將作為 USB 音頻輸入出現(xiàn)在您的個人計算機上。
我們現(xiàn)在可以用 Google Colab 錄制火災(zāi)警報的聲音,在下拉菜單中選擇“MicNode”,將其作為音頻輸入源。然后在按下煙霧報警器的測試按鈕時,點擊 Google Colab 上的錄音按鈕,錄制一個 1 秒鐘的音頻片段。將此過程重復(fù)幾次。
同樣地,我們也可以在 Google Colab 的下一個代碼單元中執(zhí)行相同的操作來收集背景音頻樣本。對于非火災(zāi)警報的聲音,如無聲、自己說話或任何其他正常的環(huán)境聲音,將此操作重復(fù)幾次。
最終模型訓(xùn)練
現(xiàn)在,我們已經(jīng)用麥克風(fēng)收集了更多樣本,并將在推理過程中使用這些樣本。我們可以用新的數(shù)據(jù)再次對模型進行微調(diào)。
將模型轉(zhuǎn)換為在 MCU 上運行
需要把我們使用的 Keras 模型轉(zhuǎn)換為 TensorFlow Lite 格式,以便在設(shè)備上使用它進行推理。
量化
為了優(yōu)化模型以便在 Arm Cortex-M0+ 處理器上運行,我們將采用一個叫做模型量化的過程。模型量化將模型的權(quán)重和偏移從 32 位浮點值轉(zhuǎn)換為 8 位值。pico-tflmicro 庫(TFLu 在 RP2040 的 Pico SDK 上的一個端口)包含 Arm 的 CMSIS-NN 庫,它支持在 Arm Cortex-M 處理器上對量化的 8 位權(quán)重進行優(yōu)化的內(nèi)核操作。
pico-tflmicro
https://github.com/raspberrypi/pico-tflmicro
我們可以使用 TensorFlow 的訓(xùn)練時量化 (QAT) 特征,輕松地將浮點模型轉(zhuǎn)換為量化模型。
TensorFlow 的訓(xùn)練時量化 (QAT)
https://tensorflow.google.cn/model_optimization/guide/quantization/training
將模型轉(zhuǎn)換為 TF Lite 格式
現(xiàn)在我們將使用 tf.lite.TFLiteConverter.from_keras_model(。..) API 將量化的 Keras 模型轉(zhuǎn)換為 TF Lite 格式,然后將其以 .tflite 文件的形式保存到磁盤。
converter = tf.lite.TFLiteConverter.from_keras_model(quant_aware_model)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
train_ds = train_ds.unbatch()
def representative_data_gen():
for input_value, output_value in train_ds.batch(1).take(100):
# Model has only one input so each data point has one element.
yield [input_value]
converter.representative_dataset = representative_data_gen
# Ensure that if any ops can‘t be quantized, the converter throws an error
converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8]
# Set the input and output tensors to uint8 (APIs added in r2.3)
converter.inference_input_type = tf.int8
converter.inference_output_type = tf.int8
tflite_model_quant = converter.convert()
with open(“tflite_model.tflite”, “wb”) as f:
f.write(tflite_model_quant)
由于 TensorFlow 也支持使用 tf.lite 加載 TF Lite 模型,我們也可以驗證量化模型的功能,并將其準(zhǔn)確率與 Google Colab 內(nèi)部的常規(guī)未量化模型進行比較。
tf.lite
https://tensorflow.google.cn/api_docs/python/tf/lite
我們要部署的電路板上的 RP2040 MCU 沒有內(nèi)置的文件系統(tǒng),這意味著我們不能在電路板上直接使用 .tflite 文件。然而,我們可以使用 Linux 的“xxd”命令將 .tflite 文件轉(zhuǎn)換為 .h 文件,然后可以在下一步的推理應(yīng)用中進行編譯。
%%shell
echo “alignas(8) const unsigned char tflite_model[] = {” 》 tflite_model.h
cat tflite_model.tflite | xxd -i 》》 tflite_model.h
echo “};”
將模型部署到設(shè)備
現(xiàn)在模型已經(jīng)準(zhǔn)備完成,并可部署到設(shè)備上。我們已經(jīng)創(chuàng)建了用于推理的應(yīng)用模板,可以與我們?yōu)槟P蜕傻?.h 文件一起編譯。
用于推理的應(yīng)用模板
https://github.com/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/tree/main/inference-app
這個 C++ 應(yīng)用依托于 pico-sdk 構(gòu)建而成,同時還配備 CMSIS-DSP、pico-tflmicro,以及 Pico 庫的麥克風(fēng)庫。它的一般結(jié)構(gòu)如下:
1. 初始化
配置板內(nèi)置 LED 的輸出。該應(yīng)用將把 LED 的亮度映射到模型的輸出(0.0 表示 LED 關(guān)閉,1.0 表示 LED 亮度全開)
設(shè)置用于推理的 TF Lite 庫和 TF Lite 模型
設(shè)置基于 CMSIS-DSP 的 DSP 流水線
設(shè)置并啟動用于實時音頻的麥克風(fēng)
2. 推理循環(huán)
等待來自麥克風(fēng)的 512 個新音頻樣本(共 4 組,每組 128 個)
將聲譜圖數(shù)組移動 4 列
將音頻輸入緩沖區(qū)移動 512 個樣本(共 4 組,每組 128 個)并在新樣本中復(fù)制
為更新的輸入緩沖區(qū)計算 4 個新的聲譜圖列
對聲譜圖數(shù)據(jù)進行推理
將推理輸出值映射到板載 LED 的亮度并將狀態(tài)輸出到 USB 端口
為了實時運行,推理循環(huán)的每個周期必須在 (512/16000) = 0.032 秒,即 32 毫秒以下。我們訓(xùn)練和轉(zhuǎn)換的模型需要 24 毫秒的推理時間,因此用于循環(huán)中其他操作的時間大約為 8 毫秒。
上文中使用了 128,以匹配聲譜圖中的訓(xùn)練流水線采用的 128 的幅度。我們在聲譜圖中采用了 4 移位,以適應(yīng)我們的實時限制。
編譯固件
現(xiàn)在我們可以使用 CMake 來生成編譯所需的構(gòu)建文件,然后用 make 進行編譯。
必須根據(jù)您采用的板,修改“cmake 。.”行:
SparkFun: cmake 。. -DPICO_BOARD=sparkfun_micromod
Raspberry Pi Pico: cmake 。. -DPICO_BOARD=pico
將推理應(yīng)用刷寫到板上
您需要再次將板調(diào)至“啟動 ROM 模式”,以便將新的應(yīng)用加載到板上。
SparkFun
將 USB-C 數(shù)據(jù)線插入電路板和個人計算機,為電路板供電。
按住電路板上的 BOOT 按鈕,同時按 RESET 按鈕。
Raspberry Pi Pico
將 Micro USB 線插入個人計算機,但不要插入 Pico 一側(cè)。
按住白色 BOOTSEL 按鈕,同時將 Micro USB 線插入 Pico。
如果您使用的是支持 WebUSB API 的瀏覽器,如 Google Chrome,則可以在 Google Colab 中直接將圖像刷寫到電路板上。除此之外,您還可以手動將 .uf2 文件下載到計算機,然后把它拖到 RP2040 板的 USB 磁盤上。
監(jiān)控板上的推理
推理應(yīng)用在電路板上開始運行之后,您可以通過兩種方式觀察它的運行情況:
通過觀察板上 LED 的亮度來直觀地獲取信息。沒有火災(zāi)警報聲時,LED 應(yīng)該保持關(guān)閉或變暗,若有火災(zāi)警報聲,LED 就會亮起:
連接板的 USB 串行端口,查看推理應(yīng)用的輸出。如果您使用的是支持 Web Serial API 的瀏覽器,如 Google Chrome,則可以直接從 Google Colab 中完成:
Web Serial API
https://developer.mozilla.org/en-US/docs/Web/API/Web_Serial_API
改善模型
現(xiàn)在已將第一版模型部署在板上,該模型正在對 16,000 kHz 的實時音頻數(shù)據(jù)進行推理!
測試一下各種聲音,看看模型是否有預(yù)期的輸出。可能會誤檢測出火災(zāi)警報聲(誤報),也有可能在有警報聲時沒有檢測出來(漏報)。
如果出現(xiàn)這種情況,您可以將 USB 麥克風(fēng)應(yīng)用固件刷寫到板上,為訓(xùn)練記錄數(shù)據(jù),重新訓(xùn)練模型并轉(zhuǎn)換為 TF lite 格式,以及重新編譯推理應(yīng)用并刷寫到板上,以便為場景記錄更多新的音頻數(shù)據(jù)。
監(jiān)督式機器學(xué)習(xí)模型的好壞通常取決于其所使用的訓(xùn)練數(shù)據(jù),所以針對這些場景的額外訓(xùn)練數(shù)據(jù)可能會有助于改善模型。您也可以嘗試改變模型結(jié)構(gòu)或特征提取過程,但請記住,模型必須足夠小巧快速,才能在 RP2040 MCU 上運行。
結(jié)論
本文介紹了一個端到端的流程,即如何訓(xùn)練自定義的音頻分類器模型,以便在使用 Arm Cortex-M0+ 處理器的開發(fā)板上運行。就模型訓(xùn)練而言,我們采用了 TensorFlow,使用了遷移學(xué)習(xí)技術(shù)以及較小的數(shù)據(jù)集和數(shù)據(jù)增強技術(shù)。我們還從麥克風(fēng)中收集了自己的數(shù)據(jù),并在推理時加以使用,其方法是將 USB 麥克風(fēng)應(yīng)用加載到開發(fā)板上,并通過網(wǎng)絡(luò)音頻 API 和 JavaScript 擴展 Colab 的特征。
項目的訓(xùn)練方面結(jié)合了 Google 的 Colab 服務(wù)和 Chrome 瀏覽器,以及開源的 TensorFlow 庫。推理應(yīng)用從數(shù)字麥克風(fēng)采集音頻數(shù)據(jù),在特征提取階段使用 Arm 的 CMSIS-DSP 庫,然后使用適用于微控制器的 TensorFlow Lite 與 Arm CMSIS-NN 加速內(nèi)核,用 8 位量化模型進行推理,在 Arm Cortex-M0+ 處理器上對實時的 16 kHz 音頻輸入進行分類。
利用 Google Chrome 的網(wǎng)絡(luò)音頻 API、網(wǎng)絡(luò) USB API 和網(wǎng)絡(luò)串行 API 功能來擴展 Google Colab 的特征,與開發(fā)板進行互動。這樣我們就能夠完全通過網(wǎng)絡(luò)瀏覽器對我們的應(yīng)用進行實驗和開發(fā),并將其部署到一個受限的開發(fā)板上進行設(shè)備端推理。
由于 ML 處理是在開發(fā)板 RP2040 MCU 上進行的,所以在推理時,所有音頻數(shù)據(jù)均會保留在設(shè)備上。
責(zé)任編輯:haq
-
音頻
+關(guān)注
關(guān)注
29文章
3019瀏覽量
83006 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8490瀏覽量
134030
原文標(biāo)題:使用 Raspberry Pi RP2040 進行端到端 TinyML 音頻分類
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
MAX32555 Cortex-M3閃存微控制器英文數(shù)據(jù)手冊
一文認(rèn)識ARM微控制器及瑞薩RA系列MCU

XMC1402-F064X0128AA——基于 ARM? Cortex?-M 的32位工業(yè)微控制器
Toshiba推出七款Arm Cortex-M4電機控制微控制器
東芝推出七款基于Arm Cortex-M4內(nèi)核的32位微控制器

CY8C40xx系列32 位 PSOC? Arm? Cortex? 微控制器Cypress
如何使用Ozone分析Cortex-M異常

兆易創(chuàng)新推出基于Arm Cortex-M33內(nèi)核的GD32G5系列高性能微控制器

恩智浦MCX工業(yè)和物聯(lián)網(wǎng)微控制器介紹

Arm Cortex-R82AE賦能高性能區(qū)域控制器設(shè)計
S1C31W65節(jié)能32位微控制器

樹莓派Pico 2發(fā)布,搭載RP2350雙核RISC-V和Arm Cortex-M33微控制器!
RM57L843基于ARM? Cortex?-R內(nèi)核的Hercules?微控制器數(shù)據(jù)表

TMS570LC4357基于ARM Cortex?-R內(nèi)核的Hercules?微控制器數(shù)據(jù)表

評論