H动漫AV网站免费线看,日韩中文无码免费看片,AV女在线观看福利影视大全

通過機器學(xué)習(xí)，開發(fā)者和工程師能夠在應(yīng)用中解鎖新的功能。您可以為應(yīng)用所需的分類任務(wù)收集大量的數(shù)據(jù)，并訓(xùn)練一個 ML 模型從數(shù)據(jù)中的模式里學(xué)習(xí)，而不是明確地定義計算機需要執(zhí)行的指令和規(guī)則。

訓(xùn)練通常在計算機上的云端進行，而此類計算機會配備一個或多個 GPU。完成模型的訓(xùn)練之后，根據(jù)模型大小，可以將其部署在各種設(shè)備上進行推理。這些設(shè)備的范圍很廣，從云端擁有數(shù)千兆字節(jié)內(nèi)存的大型計算機，到通常只有數(shù)千字節(jié)內(nèi)存的微控制器（或 MCU），悉數(shù)在內(nèi)。

微控制器是低功率、獨立、經(jīng)濟高效的計算機系統(tǒng)，日常使用的設(shè)備（如微波爐、電動牙刷或智能門鎖）中均有嵌入。基于微控制器的系統(tǒng)通常通過一個或多個傳感器（例如：按鈕、麥克風(fēng)、運動傳感器）與周圍環(huán)境互動，并使用一個或多個執(zhí)行器（例如：LED、電機、揚聲器）來執(zhí)行動作。

微控制器還具有隱私方面的優(yōu)勢，可以在設(shè)備上開展本地推理，而無需向云端發(fā)送任何數(shù)據(jù)。對于依靠電池運行的設(shè)備來說，微控制器還具有能耗方面的優(yōu)勢。

在本文中，我們將介紹如何將基于 Arm Cortex-M 的微控制器用于本地設(shè)備端 ML，以檢測周圍環(huán)境中的音頻事件。這是一篇教程式的文章，我們將指導(dǎo)您訓(xùn)練一個基于 TensorFlow 的音頻分類模型，來檢測火災(zāi)警報的聲音。

Arm Cortex-M

https://developer.arm.com/ip-products/processors/cortex-m

我們將介紹如何使用適用于微控制器的 TensorFlow Lite（具有 Arm CMSIS-NN 加速內(nèi)核），將 ML 模型部署到基于 Arm Cortex-M0+ 的微控制器板上，來進行本地設(shè)備端 ML 推理。

適用于微控制器的 TensorFlow Lite

https://tensorflow.google.cn/lite/microcontrollers

CMSIS-NN

https://arm-software.github.io/CMSIS_5/NN/html/index.html

Arm Cortex-M0+

https://developer.arm.com/ip-products/processors/cortex-m/cortex-m0-plus

Arm 的 CMSIS-DSP 庫為 Arm Cortex-M 處理器提供了優(yōu)化的數(shù)字信號處理（DSP）功能實現(xiàn)，同時也將用于推理前從實時音頻數(shù)據(jù)中提取特征。

CMSIS-DSP

https://arm-software.github.io/CMSIS_5/DSP/html/index.html

雖然本指南側(cè)重于介紹火災(zāi)警報聲音的檢測，但也可以適用于其他聲音分類任務(wù)。您可能還需要調(diào)整特征提取階段和/或調(diào)整 ML 模型架構(gòu)，以適應(yīng)您的用例。

在 Google Colab 上可查看本教程的互動版本，本指南的所有技術(shù)資料都可在 GitHub 上找到。

Google Colab

https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb

GitHub

https://github.com/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico

事前準(zhǔn)備

開發(fā)環(huán)境

Google Colab

https://colab.research.google.com/notebooks/

硬件

需要下列開發(fā)板之一，這些開發(fā)板均依托于 2021 年初發(fā)布的 Raspberry Pi 的 RP2040 MCU 芯片構(gòu)建而成。

Raspberry Pi 的 RP2040 MCU

“https://www.raspberrypi.org/products/rp2040/

SparkFun RP2040 MicroMod 和 MicroMod ML 載板

此開發(fā)板很適合剛接觸電子行業(yè)和微控制器的人。不需要電烙鐵，不需要掌握焊接技術(shù)，也不需要掌握在電路板上接線的技術(shù)。

SparkFun MicroMod RP2040 處理器。它是操作的大腦，具有 Raspberry Pi 的 RP2040 MCU 和 16MB 的閃存

SparkFun MicroMod RP2040 處理器

https://www.sparkfun.com/products/17720

SparkFun MicroMod 機器學(xué)習(xí)載板。它支持 USB 連接，并附帶內(nèi)置的麥克風(fēng)、IMU 和攝像頭連接器

SparkFun MicroMod 機器學(xué)習(xí)載板

https://www.sparkfun.com/products/16400

一條 USB-C 數(shù)據(jù)線，用于連接開發(fā)板和計算機

一把十字螺絲刀

Raspberry Pi Pico 和 PDM 麥克風(fēng)板

如果您已掌握（或者想學(xué)習(xí)）焊接技術(shù)，那么這個選項非常適合您。它需要用到電烙鐵，還需要了解如何用電子元件在電路板上布線。您將需要：

Raspberry Pi Pico

https://www.raspberrypi.org/products/raspberry-pi-pico/

Adafruit PDM MEMS 麥克風(fēng)分接板

https://colab.research.google.com/notebooks/

半尺寸或全尺寸的電路板

跳線

一條 USB-B 微數(shù)據(jù)線，用于連接開發(fā)板和計算機

電烙鐵

以上兩個選項都可以幫助您使用數(shù)字麥克風(fēng)收集實時的 16 kHz 音頻，并利用開發(fā)板的 Arm Cortex-M0+ 處理器處理音頻信號，該處理器的工作頻率為 125 MHz。在 Arm Cortex-M0+ 上運行的應(yīng)用將經(jīng)過一個數(shù)字信號處理（DSP）階段，從音頻信號中提取特征。然后，將提取出的特征饋送至神經(jīng)網(wǎng)絡(luò)，以執(zhí)行分類任務(wù)，確定開發(fā)板的環(huán)境中是否存在火災(zāi)警報的聲音。

數(shù)據(jù)集

我們首先使用 ESC-50：環(huán)境聲音分類數(shù)據(jù)集，通過 TensorFlow 來訓(xùn)練一個聲音分類器（面向多個事件）。利用這個內(nèi)容廣泛的數(shù)據(jù)集進行訓(xùn)練后，我們將使用遷移學(xué)習(xí)，針對特定音頻分類任務(wù)，對分類器進行微調(diào)。

ESC-50：環(huán)境聲音分類數(shù)據(jù)集

https://github.com/karolpiczak/ESC-50

遷移學(xué)習(xí)

https://developers.google.com/machine-learning/glossary#transfer-learning

利用包含 50 種聲音的 ESC-50 數(shù)據(jù)集訓(xùn)練這個模型。每個聲音類別有 40 個音頻文件，每個文件時長為 5 秒。將每個音頻文件分割成 1 秒的聲音片段，并舍棄任何包含純靜音的聲音片段。

犬吠數(shù)據(jù)集中的樣本波形

聲譜圖

不同于將時間序列數(shù)據(jù)直接傳入 TensorFlow 模型，我們會將音頻數(shù)據(jù)轉(zhuǎn)換為音頻聲譜圖表征。此舉將創(chuàng)建音頻信號頻率內(nèi)容隨時間變化的二維表征。

所用輸入音頻信號的采樣率將為 16 kHz，這意味著一秒鐘的音頻將包含 16，000 個樣本。通過使用 TensorFlow 的 tf.signal.stft（。..）函數(shù)，我們可以將 1 秒的音頻信號轉(zhuǎn)換為二維張量表征。我們將選擇 256 的幀長和 128 的幀步長，所以此特征提取階段的輸出將為張量，其形狀為（124， 129）。

TensorFlow 的 tf.signal.stft（。..）函數(shù)

https://tensorflow.google.cn/api_docs/python/tf/signal/stft

犬吠的聲譜圖表征

ML 模型

從音頻信號中提取了特征之后，就可以使用 TensorFlow 的 Keras API 創(chuàng)建模型。上文有完整的代碼鏈接。模型由 8 層組成：

Keras

https://tensorflow.google.cn/guide/keras/sequential_model

1. 輸入層

2. 預(yù)處理層，將把輸入張量從 124x129x1 調(diào)整為 32x32x1

3. 歸一化層，在 -1 和 1 之間對輸入值進行調(diào)整

4. 具有以下配置的二維卷積層：8 個過濾器，內(nèi)核大小為 8x8，跨度為 2x2，使用 ReLU 激活函數(shù)

5. 大小為 2x2 的二維最大池化層

6. 平面化層，對二維數(shù)據(jù)進行平面化，令其變?yōu)橐痪S

7. Dropout 層，有助于減少訓(xùn)練中的過度擬合

8. 密集層，有 50 個輸出和一個 softmax 激活函數(shù)，用于輸出聲音屬于某一類別的可能性（值在 0 到 1 之間）

以下為該模型的摘要：

請注意，此模型只有約 15，000 個參數(shù)（這相當(dāng)小！）

微調(diào)

現(xiàn)在，我們將使用遷移學(xué)習(xí)，并改變模型的分類頭（最后一個密集層），以訓(xùn)練火災(zāi)警報聲的二進制分類模型。我們已從 freesound.org 和 BigSoundBank.com 收集了 10 個火災(zāi)警報片段。對于非火災(zāi)警報聲，我們將使用來自 SpeechCommands 數(shù)據(jù)集的背景噪音片段。此數(shù)據(jù)集很小，但足夠入門使用。數(shù)據(jù)增強技術(shù)將被用于完善我們所收集的訓(xùn)練數(shù)據(jù)。

freesound.org

https://freesound.org/

BigSoundBank.com

https://bigsoundbank.com/

SpeechCommands

https://tensorflow.google.cn/datasets/catalog/speech_commands

對于實際應(yīng)用而言，務(wù)必要收集更大的數(shù)據(jù)集（您可以在 TensorFlow 的 Responsible AI 網(wǎng)站上詳細了解最佳做法）。

Responsible AI 網(wǎng)站

https://tensorflow.google.cn/responsible_ai

數(shù)據(jù)增強

數(shù)據(jù)增強是一套用于擴大數(shù)據(jù)集規(guī)模的技術(shù)。達成此目標(biāo)的方法是，稍微修改數(shù)據(jù)集中的樣本或創(chuàng)建合成數(shù)據(jù)。在本例中使用的是音頻，并將創(chuàng)建一些函數(shù)來增加不同的樣本。我們將使用三種技術(shù)：

1. 在音頻樣本中添加白噪聲

2. 在音頻中隨機添加靜音

3. 將兩個音頻樣本混合在一起

除了擴大數(shù)據(jù)集，數(shù)據(jù)增強也可以在不同的（不完美的）數(shù)據(jù)樣本上訓(xùn)練模型，以此來減少過度擬合。例如，在微控制器上不可能有完美的高質(zhì)量音頻，所以此類技術(shù)（例如添加白噪聲）可以幫助模型在麥克風(fēng)可能經(jīng)常有噪聲的情況下正常運作。

GIF：數(shù)據(jù)增強如何通過增加噪聲來微調(diào)聲譜圖

（仔細看，可能不太容易看清）

特征提取

適用于微控制器的 TensorFlow Lite （TFLu）提供了 TensorFlow 操作的一個子集，所以無法使用我們在 MCU 上用于基線模型特征提取的 tf.signal.sft（。..） API。然而，我們可以利用 Arm 的 CMSIS-DSP 庫，在 MCU 上生成聲譜圖。CMSIS-DSP 包含對浮點和定點 DSP 操作的支持，這些操作均針對 Arm Cortex-M 處理器進行了優(yōu)化，其中便包括我們要向其部署 ML 模型的 Arm Cortex-M0+。Arm Cortex-M0+ 不包含浮點單元（FPU），因此最好在開發(fā)板上利用基于特征提取流水線的 16 位定點 DSP。

我們可以在 Notebook 中利用 CMSIS-DSP 的 Python 封裝容器，使用 16 位定點數(shù)學(xué)在我們的訓(xùn)練流水線上進行同樣的操作。在較高級別上，我們可以通過以下基于 CMSIS-DSP 的操作來復(fù)制 TensorFlow SFT API：

CMSIS-DSP 的 Python 封裝容器

https://github.com/ARM-software/CMSIS_5/tree/develop/CMSIS/DSP/PythonWrapper#readme

1. 使用漢寧窗（Hanning Window）公式和 CMSIS-DSP 的 arm_cos_f32 API，手動創(chuàng)建一個長度為 256 的漢寧窗。

arm_cos_f32

https://arm-software.github.io/CMSIS_5/DSP/html/group__cos.html#gace15287f9c64b9b4084d1c797d4c49d8

2. 創(chuàng)建一個 CMSIS-DSP arm_rfft_instance_q15 實例，并使用 CMSIS-DSP 的 arm_rfft_init_q15 API 對其進行初始化。

arm_rfft_init_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__RealFFT.html#ga053450cc600a55410ba5b5605e96245d

3. 循環(huán)播放音頻數(shù)據(jù)，每次 256 個樣本，跨度為 128（這與我們傳入 TF sft API 的參數(shù)一致）

使用 CMSIS-DSP 的 arm_mult_q15 API，將 256 個樣本與漢寧窗相乘

arm_mult_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__BasicMult.html#gaeeda8cdc2c7e79c8a26e905342a0bb17

使用 CMSIS-DSP 的 arm_rfft_q15 API 計算上一步輸出的 FFT

arm_rfft_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__RealFFT.html#ga00e615f5db21736ad5b27fb6146f3fc5

使用 CMSIS-DSP 的 arm_cmplx_mag_q15 API 計算上一步的幅度

arm_cmplx_mag_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__cmplx__mag.html#ga0488e185f4631ac029b02f1759b287cf

4. 每個音頻片段的 FFT 幅度代表聲譜圖的一列。

5. 由于我們的基線模型適合使用浮點輸入，而不是我們使用的 16 位量化值，CMSIS-DSP arm_q15_to_float API 可以用來將聲譜數(shù)據(jù)從 16 位定點值轉(zhuǎn)換為用于訓(xùn)練的浮點值。

arm_q15_to_float

https://arm-software.github.io/CMSIS_5/DSP/html/group__q15__to__x.html#ga5a75381e7d63ea3a3a315344615281cf

這個模型的完整版 Python 代碼有點長，但可以在 Google Colab notebook 的“遷移學(xué)習(xí) -》加載數(shù)據(jù)集”部分中加以查看。

Google Colab notebook 的“遷移學(xué)習(xí) -》加載數(shù)據(jù)集”部分

https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb

煙霧報警器聲音的波形和音頻譜圖

若要進一步了解如何使用 CMSIS-DSP 的定點操作創(chuàng)建音頻聲譜圖，請參見 Towards Data Science 中的“數(shù)據(jù)研究員的定點 DSP （Fixed-point DSP for Data Scientists）”指南。

Towards Data Science 中的“數(shù)據(jù)研究員的定點 DSP （Fixed-point DSP for Data Scientists）”指南

https://towardsdatascience.com/fixed-point-dsp-for-data-scientists-d773a4271f7f

加載基線模型并改變分類頭

我們之前利用 ESC-50 數(shù)據(jù)集訓(xùn)練的模型預(yù)測了 50 個聲音類型的存在，這導(dǎo)致模型的最后密集層有 50 個輸出。我們想創(chuàng)建的新模型是二進制分類器，需要有單一的輸出值。

我們將加載基線模型，還將換掉最后的密集層，以滿足我們的需要：

# We need a new head with one neuron.

model_body = tf.keras.Model（inputs=model.input， outputs=model.layers［-2］.output）

classifier_head = tf.keras.layers.Dense（1， activation=“sigmoid”）（model_body.output）

fine_tune_model = tf.keras.Model（model_body.input， classifier_head）

于是就有了以下的 model.summary（）：

遷移學(xué)習(xí)

遷移學(xué)習(xí)是對一個任務(wù)開發(fā)的模型進行再訓(xùn)練，以完成類似的新任務(wù)的過程。其理念是，該模型已經(jīng)學(xué)會了可遷移的“技能”，其權(quán)重和偏差可以在其他模型中作為起點。

我們?nèi)祟愐矔褂眠w移學(xué)習(xí)，例如為學(xué)習(xí)走路而培養(yǎng)的技能也可在以后用于學(xué)習(xí)跑步。

在神經(jīng)網(wǎng)絡(luò)中，模型的前幾層會開始進行“特征提取”，如尋找形狀、邊緣和顏色。系統(tǒng)會將之后的幾層用作分類器；這些層會利用提取的特征，并對特征進行分類。

正因為如此，我們可以認(rèn)為前幾層已經(jīng)學(xué)會了相當(dāng)通用的特征提取技術(shù)，并可將其應(yīng)用于類似的任務(wù)，因此我們可以凍結(jié)所有這些層，在未來的新任務(wù)中加以使用。需要根據(jù)新任務(wù)對分類器層進行訓(xùn)練。

為了實現(xiàn)這個目標(biāo)，我們將進程分為兩步：

1. 凍結(jié)模型的“主干”，以超高的學(xué)習(xí)率訓(xùn)練頭部。慢慢降低學(xué)習(xí)率。

2. 解凍“主干”，以低學(xué)習(xí)率微調(diào)模型每。

若要在 TensorFlow 中凍結(jié)一個層，我們可以設(shè)置 layer.trainable=False。循環(huán)操作所有層，并執(zhí)行以下操作：

for layer in fine_tune_model.layers：

layer.trainable = False

然后解凍最后一層（頭部）：

fine_tune_model.layers［-1］.trainable = True

我們現(xiàn)在可以使用二進制交叉熵損失函數(shù)來訓(xùn)練模型。還將使用 Keras 的早停回調(diào)（以避免過度擬合）和動態(tài)學(xué)習(xí)率調(diào)度器。

用凍結(jié)的層進行訓(xùn)練后，可以對其進行解凍：

for layer in fine_tune_model.layers：

layer.trainable = True

然后再次進行訓(xùn)練（最多 10 次）。您可以在 Colab notebook 的“遷移學(xué)習(xí) -》訓(xùn)練模型”部分中查看完整的代碼。

Colab notebook 的“遷移學(xué)習(xí) -》訓(xùn)練模型”部分

https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb#scrollTo=Replace_Baseline_Model_Classification_Head_and_Train_Model

記錄您自己的訓(xùn)練數(shù)據(jù)

現(xiàn)在已得到 ML 模型，可以對出現(xiàn)的火災(zāi)報警聲進行分類。然而，此模型的訓(xùn)練是根據(jù)公開的聲音記錄訓(xùn)練而成，可能與用于推理的硬件麥克風(fēng)的聲音特征不一致。

Raspberry Pi RP2040 MCU 帶有原生的 USB 功能，可以讓其像自定義 USB 設(shè)備一樣運行。可以在開發(fā)板上刷寫一個應(yīng)用，讓它能夠像 USB 麥克風(fēng)一樣連在我們的 PC上。然后，可以用 Google Chrome 等流行的網(wǎng)絡(luò)瀏覽器上的網(wǎng)絡(luò)音頻 API 來擴展 Google Colab 的功能，收集實時數(shù)據(jù)樣本（所有這些都可通過 Google Colab 而得！）

網(wǎng)絡(luò)音頻 API

https://developer.mozilla.org/en-US/docs/Web/API/Web_Audio_API

硬件設(shè)置

SparkFun MicroMod RP2040

在組裝時，卸下載板上的螺絲，以一定的角度將 MicroMod RP2040 處理器板滑入插座，并用螺絲將其固定。更多詳情請參見 MicroMod 機器學(xué)習(xí)載板連接指南。

MicroMod 機器學(xué)習(xí)載板連接指南

https://learn.sparkfun.com/tutorials/micromod-machine-learning-carrier-board-hookup-guide？_ga=2.90268890.1509654996.1628608170-268367655.1627493370#hardware-hookup

Raspberry Pi Pico

按照“利用 Raspberry Pi Pico 創(chuàng)建 USB 麥克風(fēng)”指南中的硬件設(shè)置部分的說明進行組裝。

“利用 Raspberry Pi Pico 創(chuàng)建 USB 麥克風(fēng)”指南中的硬件設(shè)置部分

https://www.hackster.io/sandeep-mistry/create-a-usb-microphone-with-the-raspberry-pi-pico-cc9bd5#toc-hardware-setup-5

Fritzing 布線圖

組裝好的電路

設(shè)置固件應(yīng)用工具鏈

無需在個人計算機上設(shè)置 Raspberry Pi Pico 的 SDK。我們可以利用 Colab 內(nèi)置的 Linux shell 命令特征，用 CMake 和 GNU Arm 嵌入工具鏈設(shè)置 Pico SDK 開發(fā)環(huán)境。

CMake

https://cmake.org”

GNU Arm 嵌入工具鏈

https://developer.arm.com/tools-and-software/open-source-software/developer-tools/gnu-toolchain/gnu-rm

還要用 git 將 pico-sdk 下載到 Colab 實例中：

pico-sdk

https://github.com/raspberrypi/pico-sdk

%%shell

git clone https://github.com/raspberrypi/pico-sdk.git

cd pico-sdk

git submodule init

git submodule update

編譯并刷寫 USB 麥克風(fēng)應(yīng)用

現(xiàn)在可以使用 Pico 的麥克風(fēng)庫中的 USB 麥克風(fēng)示例。可以用 cmake 和 make 對此示例應(yīng)用進行編譯。然后，通過 USB 將示例應(yīng)用刷寫到電路板上，將電路板調(diào)至“啟動 ROM 模式”，這樣就可以將應(yīng)用上傳到電路板上。

Pico 的麥克風(fēng)庫

https://github.com/ArmDeveloperEcosystem/microphone-library-for-pico

SparkFun

將 USB-C 數(shù)據(jù)線插入電路板和個人計算機，為電路板供電。

按住電路板上的 BOOT 按鈕，同時按 RESET 按鈕。

Raspberry Pi Pico

將 Micro USB 線插入個人計算機，但不要插入 Pico 一側(cè)。

按住白色 BOOTSEL 按鈕，同時將 Micro USB 線插入 Pico。

如果您使用的是支持 WebUSB API 的瀏覽器，如 Google Chrome，則可以直接從 Google Colab 中把圖像刷寫到板上！

WebUSB API

https://wicg.github.io/webusb/

從 Google Colab 和 WebUSB 中將 USB 麥克風(fēng)應(yīng)用下載到板上

除此之外，您還可以手動將 .uf2 文件下載到計算機，然后把它拖到 RP2040 板的 USB 磁盤上。

收集訓(xùn)練數(shù)據(jù)

將 USB 麥克風(fēng)應(yīng)用刷寫到板上之后，它將作為 USB 音頻輸入出現(xiàn)在您的個人計算機上。

我們現(xiàn)在可以用 Google Colab 錄制火災(zāi)警報的聲音，在下拉菜單中選擇“MicNode”，將其作為音頻輸入源。然后在按下煙霧報警器的測試按鈕時，點擊 Google Colab 上的錄音按鈕，錄制一個 1 秒鐘的音頻片段。將此過程重復(fù)幾次。

同樣地，我們也可以在 Google Colab 的下一個代碼單元中執(zhí)行相同的操作來收集背景音頻樣本。對于非火災(zāi)警報的聲音，如無聲、自己說話或任何其他正常的環(huán)境聲音，將此操作重復(fù)幾次。

最終模型訓(xùn)練

現(xiàn)在，我們已經(jīng)用麥克風(fēng)收集了更多樣本，并將在推理過程中使用這些樣本。我們可以用新的數(shù)據(jù)再次對模型進行微調(diào)。

將模型轉(zhuǎn)換為在 MCU 上運行

需要把我們使用的 Keras 模型轉(zhuǎn)換為 TensorFlow Lite 格式，以便在設(shè)備上使用它進行推理。

量化

為了優(yōu)化模型以便在 Arm Cortex-M0+ 處理器上運行，我們將采用一個叫做模型量化的過程。模型量化將模型的權(quán)重和偏移從 32 位浮點值轉(zhuǎn)換為 8 位值。pico-tflmicro 庫（TFLu 在 RP2040 的 Pico SDK 上的一個端口）包含 Arm 的 CMSIS-NN 庫，它支持在 Arm Cortex-M 處理器上對量化的 8 位權(quán)重進行優(yōu)化的內(nèi)核操作。

pico-tflmicro

https://github.com/raspberrypi/pico-tflmicro

我們可以使用 TensorFlow 的訓(xùn)練時量化（QAT）特征，輕松地將浮點模型轉(zhuǎn)換為量化模型。

TensorFlow 的訓(xùn)練時量化（QAT）

https://tensorflow.google.cn/model_optimization/guide/quantization/training

將模型轉(zhuǎn)換為 TF Lite 格式

現(xiàn)在我們將使用 tf.lite.TFLiteConverter.from_keras_model（。..） API 將量化的 Keras 模型轉(zhuǎn)換為 TF Lite 格式，然后將其以 .tflite 文件的形式保存到磁盤。

converter = tf.lite.TFLiteConverter.from_keras_model（quant_aware_model）

converter.optimizations = ［tf.lite.Optimize.DEFAULT］

train_ds = train_ds.unbatch（）

def representative_data_gen（）：

for input_value， output_value in train_ds.batch（1）.take（100）：

# Model has only one input so each data point has one element.

yield ［input_value］

converter.representative_dataset = representative_data_gen

# Ensure that if any ops can‘t be quantized， the converter throws an error

converter.target_spec.supported_ops = ［tf.lite.OpsSet.TFLITE_BUILTINS_INT8］

# Set the input and output tensors to uint8 （APIs added in r2.3）

converter.inference_input_type = tf.int8

converter.inference_output_type = tf.int8

tflite_model_quant = converter.convert（）

with open（“tflite_model.tflite”， “wb”） as f：

f.write（tflite_model_quant）

由于 TensorFlow 也支持使用 tf.lite 加載 TF Lite 模型，我們也可以驗證量化模型的功能，并將其準(zhǔn)確率與 Google Colab 內(nèi)部的常規(guī)未量化模型進行比較。

tf.lite

https://tensorflow.google.cn/api_docs/python/tf/lite

我們要部署的電路板上的 RP2040 MCU 沒有內(nèi)置的文件系統(tǒng)，這意味著我們不能在電路板上直接使用 .tflite 文件。然而，我們可以使用 Linux 的“xxd”命令將 .tflite 文件轉(zhuǎn)換為 .h 文件，然后可以在下一步的推理應(yīng)用中進行編譯。

%%shell

echo “alignas（8） const unsigned char tflite_model［］ = {” 》 tflite_model.h

cat tflite_model.tflite | xxd -i 》》 tflite_model.h

echo “};”

將模型部署到設(shè)備

現(xiàn)在模型已經(jīng)準(zhǔn)備完成，并可部署到設(shè)備上。我們已經(jīng)創(chuàng)建了用于推理的應(yīng)用模板，可以與我們?yōu)槟Ｐ蜕傻?.h 文件一起編譯。

用于推理的應(yīng)用模板

https://github.com/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/tree/main/inference-app

這個 C++ 應(yīng)用依托于 pico-sdk 構(gòu)建而成，同時還配備 CMSIS-DSP、pico-tflmicro，以及 Pico 庫的麥克風(fēng)庫。它的一般結(jié)構(gòu)如下：

1. 初始化

配置板內(nèi)置 LED 的輸出。該應(yīng)用將把 LED 的亮度映射到模型的輸出（0.0 表示 LED 關(guān)閉，1.0 表示 LED 亮度全開）

設(shè)置用于推理的 TF Lite 庫和 TF Lite 模型

設(shè)置基于 CMSIS-DSP 的 DSP 流水線

設(shè)置并啟動用于實時音頻的麥克風(fēng)

2. 推理循環(huán)

等待來自麥克風(fēng)的 512 個新音頻樣本（共 4 組，每組 128 個）

將聲譜圖數(shù)組移動 4 列

將音頻輸入緩沖區(qū)移動 512 個樣本（共 4 組，每組 128 個）并在新樣本中復(fù)制

為更新的輸入緩沖區(qū)計算 4 個新的聲譜圖列

對聲譜圖數(shù)據(jù)進行推理

將推理輸出值映射到板載 LED 的亮度并將狀態(tài)輸出到 USB 端口

為了實時運行，推理循環(huán)的每個周期必須在（512/16000） = 0.032 秒，即 32 毫秒以下。我們訓(xùn)練和轉(zhuǎn)換的模型需要 24 毫秒的推理時間，因此用于循環(huán)中其他操作的時間大約為 8 毫秒。

上文中使用了 128，以匹配聲譜圖中的訓(xùn)練流水線采用的 128 的幅度。我們在聲譜圖中采用了 4 移位，以適應(yīng)我們的實時限制。

編譯固件

現(xiàn)在我們可以使用 CMake 來生成編譯所需的構(gòu)建文件，然后用 make 進行編譯。

必須根據(jù)您采用的板，修改“cmake 。.”行：

SparkFun： cmake 。. -DPICO_BOARD=sparkfun_micromod

Raspberry Pi Pico： cmake 。. -DPICO_BOARD=pico

將推理應(yīng)用刷寫到板上

您需要再次將板調(diào)至“啟動 ROM 模式”，以便將新的應(yīng)用加載到板上。

SparkFun

將 USB-C 數(shù)據(jù)線插入電路板和個人計算機，為電路板供電。

按住電路板上的 BOOT 按鈕，同時按 RESET 按鈕。

Raspberry Pi Pico

將 Micro USB 線插入個人計算機，但不要插入 Pico 一側(cè)。

按住白色 BOOTSEL 按鈕，同時將 Micro USB 線插入 Pico。

如果您使用的是支持 WebUSB API 的瀏覽器，如 Google Chrome，則可以在 Google Colab 中直接將圖像刷寫到電路板上。除此之外，您還可以手動將 .uf2 文件下載到計算機，然后把它拖到 RP2040 板的 USB 磁盤上。

監(jiān)控板上的推理

推理應(yīng)用在電路板上開始運行之后，您可以通過兩種方式觀察它的運行情況：

通過觀察板上 LED 的亮度來直觀地獲取信息。沒有火災(zāi)警報聲時，LED 應(yīng)該保持關(guān)閉或變暗，若有火災(zāi)警報聲，LED 就會亮起：

連接板的 USB 串行端口，查看推理應(yīng)用的輸出。如果您使用的是支持 Web Serial API 的瀏覽器，如 Google Chrome，則可以直接從 Google Colab 中完成：

Web Serial API

https://developer.mozilla.org/en-US/docs/Web/API/Web_Serial_API

改善模型

現(xiàn)在已將第一版模型部署在板上，該模型正在對 16，000 kHz 的實時音頻數(shù)據(jù)進行推理！

測試一下各種聲音，看看模型是否有預(yù)期的輸出。可能會誤檢測出火災(zāi)警報聲（誤報），也有可能在有警報聲時沒有檢測出來（漏報）。

如果出現(xiàn)這種情況，您可以將 USB 麥克風(fēng)應(yīng)用固件刷寫到板上，為訓(xùn)練記錄數(shù)據(jù)，重新訓(xùn)練模型并轉(zhuǎn)換為 TF lite 格式，以及重新編譯推理應(yīng)用并刷寫到板上，以便為場景記錄更多新的音頻數(shù)據(jù)。

監(jiān)督式機器學(xué)習(xí)模型的好壞通常取決于其所使用的訓(xùn)練數(shù)據(jù)，所以針對這些場景的額外訓(xùn)練數(shù)據(jù)可能會有助于改善模型。您也可以嘗試改變模型結(jié)構(gòu)或特征提取過程，但請記住，模型必須足夠小巧快速，才能在 RP2040 MCU 上運行。

結(jié)論

本文介紹了一個端到端的流程，即如何訓(xùn)練自定義的音頻分類器模型，以便在使用 Arm Cortex-M0+ 處理器的開發(fā)板上運行。就模型訓(xùn)練而言，我們采用了 TensorFlow，使用了遷移學(xué)習(xí)技術(shù)以及較小的數(shù)據(jù)集和數(shù)據(jù)增強技術(shù)。我們還從麥克風(fēng)中收集了自己的數(shù)據(jù)，并在推理時加以使用，其方法是將 USB 麥克風(fēng)應(yīng)用加載到開發(fā)板上，并通過網(wǎng)絡(luò)音頻 API 和 JavaScript 擴展 Colab 的特征。

項目的訓(xùn)練方面結(jié)合了 Google 的 Colab 服務(wù)和 Chrome 瀏覽器，以及開源的 TensorFlow 庫。推理應(yīng)用從數(shù)字麥克風(fēng)采集音頻數(shù)據(jù)，在特征提取階段使用 Arm 的 CMSIS-DSP 庫，然后使用適用于微控制器的 TensorFlow Lite 與 Arm CMSIS-NN 加速內(nèi)核，用 8 位量化模型進行推理，在 Arm Cortex-M0+ 處理器上對實時的 16 kHz 音頻輸入進行分類。

利用 Google Chrome 的網(wǎng)絡(luò)音頻 API、網(wǎng)絡(luò) USB API 和網(wǎng)絡(luò)串行 API 功能來擴展 Google Colab 的特征，與開發(fā)板進行互動。這樣我們就能夠完全通過網(wǎng)絡(luò)瀏覽器對我們的應(yīng)用進行實驗和開發(fā)，并將其部署到一個受限的開發(fā)板上進行設(shè)備端推理。

由于 ML 處理是在開發(fā)板 RP2040 MCU 上進行的，所以在推理時，所有音頻數(shù)據(jù)均會保留在設(shè)備上。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴