女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

了解什么是音高以及歷史上機器學習如何檢測歌曲中的音高

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-11-18 17:31 ? 次閱讀

教程的目標:

了解什么是音高 (Pitch) 以及歷史上機器學習如何檢測歌曲中的音高

對歌曲數據以及執行模型的結果進行可視化

編寫通過手機麥克風收集聲音的代碼

Android 應用程序內部部署 ML 模型

對歌曲的數據進行轉換并使用 SPICE 模型進行推斷

在 Android 手機屏幕上呈現最終結果

介紹

音高是聲音的一種感知屬性,可以按相應的頻率對其進行排序。換句話說,音高在音樂旋律中是用來判斷聲音聽起來“高”和“低”的一種屬性。音高是音調的主要聽覺屬性之一,其余為音長 (Duration),音強 (Loudness),以及音色 (Timbre)。音高通過頻率進行量化,并以赫茲 (Hz) 為單位進行測量,其中 1Hz 表示每秒一個周期。

音高檢測 (Pitch detection) 一個有趣的挑戰。歷史上,對音高和音高感知的研究一直是心理聲學的核心問題,并且在音頻表征的形成與測試理論、 信號處理算法 (Signal-Processing Algorithms) 以及聽覺系統中的感知等方面起到重要作用。研究人員為此開發并應用了許多技術 ,還努力將相近頻率的背景噪聲與背景音樂進行分離。

技術
https://www.cs.uregina.ca/Research/Techreports/2003-06.pdf

今天,我們可以通過機器學習來實現這一目標,更具體地說,可以使用 SPICE 模型。這是一個經過預訓練的模型,可以識別混合錄制的音頻中的基本音高(包括噪音和背景音樂),您可以在 TensorFlow Hub 獲取 SPICE 模型,包括適用于 Web 端的 TensorFlow.js 以及適用于移動端的 TensorFlow Lite。

TensorFlow Hub

https://tfhub.dev/

TensorFlow.js
https://tfhub.dev/google/tfjs-model/spice/1/default/1

TensorFlow Lite
https://tfhub.dev/google/lite-model/spice/1

開始

音頻以單聲道 16khz 采樣率記錄并保存為 .wav 格式。讓我們用一個具有該格式的簡單音頻文件為例。如果使用對數頻率坐標圖(以使歌聲更清晰可見),加載它并可視化輸出,我們將獲得一個頻譜圖,該頻譜圖顯示隨時間變化的頻率:

音頻文件
https://storage.googleapis.com/download.tensorflow.org/data/c-scale-metronome.wav

在執行帶有歌曲數據的模型后,我們將打印模型的輸出。藍色表示模型預測的音高值,橙色表示這些音高值的置信度:

如果僅保留置信度大于 90% 的結果,并將其與灰度圖重疊,我們將獲得下圖:

在所有長度的歌曲上準確性都很高!!

需要指出的是,雖然對于上述示例,基于頻譜圖的啟發式音高提取方法可能也起作用。但是通常情況下,基于機器學習的模型會優于手工提取的信號處理方法,特別是當音頻中存在背景噪聲和背景音樂時。關于 SPICE 與 SWIPE(基于頻譜圖的算法)的比較,請參見此文。

若在 Android 應用程序內部運行 SPICE 模型,必須使用麥克風收集聲音。首先,我們設置變量:

private val AUDIO_SOURCE = MediaRecorder.AudioSource.VOICE_RECOGNITION private val SAMPLE_RATE = 16000 private val CHANNEL_MASK = AudioFormat.CHANNEL_IN_MONO private val ENCODING = AudioFormat.ENCODING_PCM_16BIT private val BUFFER_SIZE = AudioRecord.getMinBufferSize(SAMPLE_RATE, CHANNEL_MASK, ENCODING) private val AUDIO_FORMAT = AudioFormat.Builder().setEncoding(ENCODING) .setSampleRate(SAMPLE_RATE) .setChannelMask(CHANNEL_MASK) .build()

然后,選擇 MediaRecorder.AudioSource.VOICE_RECOGNITION 以將麥克風聲源導入至語音識別并應用噪聲消除。音頻格式是 16位,單聲道,16KHz 采樣率的理想格式。最后,我們開始錄音進程:

/** * Start the recording process. */ mRecorder = AudioRecord.Builder().setAudioSource(AUDIO_SOURCE) .setAudioFormat(AUDIO_FORMAT) .setBufferSizeInBytes(BUFFER_SIZE) .build() mRecorder?.startRecording()

停止錄音進程 mRecorder.stopRecording() ,隨后我們從錄音機流中讀取音頻:

private val readAudio = Runnable { var readBytes: Int buffer = ShortArray(BUFFER_SIZE) while (mRecording) { readBytes = mRecorder!!.read(buffer, 0, BUFFER_SIZE) //Higher volume of microphone //https://stackoverflow.com/questions/25441166/how-to-adjust-microphone-sensitivity-while-recording-audio-in-android if (readBytes > 0) { for (i in 0 until readBytes) { buffer[i] = Math.min( (buffer[i] * 6.7).toInt(), Short.MAX_VALUE.toInt() ).toShort() } } if (readBytes != AudioRecord.ERROR_INVALID_OPERATION) { for (s in buffer) { // Add all values to arraylist bufferForInference.add(s) writeShort(mPcmStream, s) } } } }

注意此處的乘法 buffer[i] * 6.7。這個參數用于控制麥克風增益并提高靈敏度(您可以使用其他值代替 6.7 來滿足需要)!

在此類內,還有一個將字節數組轉換為.wav文件的函數。該文件存儲在手機內部存儲器的Pitch Detector文件夾中,可用于與原始版本對比驗證移動端模型輸出的準確性。

原始版本
https://colab.sandbox.google.com/github/tensorflow/hub/blob/master/examples/colab/spice.ipynb

部署 SPICE 模型的第一步是復制位于 Assets 文件夾中的 .tflite 文件。我們將這些依賴包含在 app build.gradle 文件中:

implementation 'org.tensorflow0.0.0-nightly' implementation 'org.tensorflow0.0.0-nightly' implementation 'org.tensorflow0.0.0-nightly'

.tflite 文件
https://tfhub.dev/google/lite-model/spice/1

最后一個依賴項含有額外的算子——這是該項目不可或缺的依賴項,但會顯著增大最終 .apk 文件的體積,因為該模型使用了一些在第一個 tflite 依賴項中沒有的算子。如需進一步了解,您可以閱讀此文。

此文
https://tensorflow.google.cn/lite/guide/ops_select#android_aar

初始化解釋器,從文件夾加載模型文件:

// load tflite file from assets folder @Throws(IOException::class) private fun loadModelFile(context: Context, modelFile: String): MappedByteBuffer { val fileDescriptor = context.assets.openFd(modelFile) val inputStream = FileInputStream(fileDescriptor.fileDescriptor) val fileChannel = inputStream.channel val startOffset = fileDescriptor.startOffset val declaredLength = fileDescriptor.declaredLength val retFile = fileChannel.map(FileChannel.MapMode.READ_ONLY, startOffset, declaredLength) fileDescriptor.close() return retFile } @Throws(IOException::class) private fun getInterpreter( context: Context, modelName: String, useGpu: Boolean ): Interpreter { val tfliteOptions = Interpreter.Options() if (useGpu) { gpuDelegate = GpuDelegate() tfliteOptions.addDelegate(gpuDelegate) } tfliteOptions.setNumThreads(numberThreads) return Interpreter(loadModelFile(context, modelName), tfliteOptions) }

我們準備好了,使用音頻流進行推理!

音頻流采用 ArrayList 格式。但是要將其輸入至模型,我們必須將其轉換為 float 值并正則化到 -1 到 1 的范圍內。為此,我們將每個值除以 MAX_ABS_INT16 = 32768,然后使用解釋器執行推理:

fun execute(floatsInput: FloatArray): ArrayList { predictTime = System.currentTimeMillis() val inputSize = floatsInput.size // ~2 seconds of sound var outputSize = 0 when (inputSize) { // 16.000 * 2 seconds recording 32000 -> outputSize = ceil(inputSize / 512.0).toInt() else -> outputSize = (ceil(inputSize / 512.0) + 1).toInt() } val inputValues = floatsInput//FloatArray(inputSize) val inputs = arrayOf(inputValues) val outputs = HashMap() val pitches = FloatArray(outputSize) val uncertainties = FloatArray(outputSize) outputs[0] = pitches outputs[1] = uncertainties try { interpreter.runForMultipleInputsOutputs(inputs, outputs) } catch (e: Exception) { Log.e("EXCEPTION", e.toString()) } }

當我們獲得結果后,我們接下來要做的是:

篩選輸出置信度超過 90% 的結果

將絕對音高轉換為赫茲 (Hz)

計算唱歌期間的偏移量

使用一些啟發式算法嘗試預測并輸出最可能的演唱樂譜。

上述步驟中,計算出理想的偏移量是重要的一步,因為通常人們哼唱的旋律與可以記譜的絕對音高值之間存在偏移。為此,我們還需要知道歌曲的速度(這樣才能確定采用的音符長度,比如八分音符)以及開始量化產生音符的時間偏移量。為簡單起見,我們將嘗試使用不同的速度和時間偏移并測量量化誤差,最后采用該誤差最小的組合。您可以在 PitchModelExecutor.kt 的源代碼中繼續深入了解。

PitchModelExecutor.kt 的源代碼

https://github.com/farmaker47/Pitch_Estimator/blob/master/app/src/main/java/com/george/pitch_estimator/PitchModelExecutor.kt

通過上述過程,我們獲得了含有音符字符串的 ArrayList,例如 [A2,F2,G#2,C3],這些結果顯示在屏幕上。

TensorFlow Hub 的 SPICE 模型示例頁面有一個出色的可視化工具,可以在靜態的五線譜上顯示不斷流入的音符。因此,是時候在我們的移動應用程序去中復制此實時效果了!

可視化工具
https://tfhub.dev/google/lite-model/spice/1

Android webview 用于處理一些自定義 html 代碼。我們將此代碼加載到綁定適配器中:

// this binding adapter helps load custom html from assets folder @BindingAdapter("htmlToScreen") fun bindTextViewHtml(webView: WebView, htmlValue: String) { webView.settings.javaScriptEnabled = true webView.loadDataWithBaseURL("fake://not/needed", htmlValue, "text/html", "UTF-8", "") }

您可以在 這個 GitHub Gist 找到提供給 Webview 的 html 源代碼!

GitHub Gist
https://gist.github.com/farmaker47/8e3b6a5af795f32459d35d2198f07d1c

當屏幕上顯示如 [A2,F2] 這樣的文字音符時,我們執行:

// Observe notes as they come out of model and update webview respectively viewModel.noteValuesToDisplay.observe(viewLifecycleOwner, androidx.lifecycle.Observer { list -> if (list.size > 0) { var i = 0 val handler = Handler() handler.post(object : Runnable { override fun run() { when (list[i]) { "C2" -> binding.webView.loadUrl("javascript:myMove('125')") "C#2" -> binding.webView.loadUrl("javascript:myMoveSharp('125')") "D2" -> binding.webView.loadUrl("javascript:myMove('130')") "D#2" -> binding.webView.loadUrl("javascript:myMoveSharp('130')") "E2" -> binding.webView.loadUrl("javascript:myMove('135')") "F2" -> binding.webView.loadUrl("javascript:myMove('140')") "F#2" -> binding.webView.loadUrl("javascript:myMoveSharp('140')") "G2" -> binding.webView.loadUrl("javascript:myMove('145')") "G#2" -> binding.webView.loadUrl("javascript:myMoveSharp('145')") "A2" -> binding.webView.loadUrl("javascript:myMove('150')") "A#2" -> binding.webView.loadUrl("javascript:myMoveSharp('150')") "B2" -> binding.webView.loadUrl("javascript:myMove('155')") ........................... } i++ if (i < list.size) { handler.postDelayed(this, 555L) } } }) } })

在這里,我們每兩秒鐘觀察一次音符變化,對于列表中的每個音符,我們執行 javascript 函數。myMove 函數內部的值是注釋的垂直偏移量。

此項目的 GitHub 地址(https//github.com/farmaker47/Pitch_Estimator)。

此項目使用 Kotlin 語言,并且包括:

使用 Webview 和自定義 HTML 加載。

使用 TensorFlow 的 .tflite 模型文件:

數據綁定

MVVM 模式下的協程

Koin DI

改進計劃

在應用程序的 build.gradle 文件中,我們添加了特殊算子的依賴項:

implementation ‘org.tensorflow0.0.0-nightly’

此依賴項導致最終的 .apk 文件體積膨脹。我們計劃通過僅選擇模型所需的算子,以此減少最終 .apk 的大小。

通過改進算法,我們將能夠查看全音符,二分音符,休止符和其他音符。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 音頻
    +關注

    關注

    29

    文章

    3019

    瀏覽量

    83015
  • 機器學習
    +關注

    關注

    66

    文章

    8490

    瀏覽量

    134058
  • tensorflow
    +關注

    關注

    13

    文章

    330

    瀏覽量

    61024

原文標題:學習教程 | 用 TensorFlow Lite 和 SPICE 模型打造聽歌識譜 App

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    日賺1.1億,營收超特斯拉!比亞迪史上最強財報兩大看點

    (電子發燒友網報道 文/章鷹)3月24日,比亞迪發布2024年度財報,這次財報堪稱歷史上最好的財報,公司2024年實現營業收入7771.02億元(1069億美元),同比增長29.02%,這是比亞迪
    的頭像 發表于 03-28 01:00 ?3456次閱讀
    日賺1.1億,營收超特斯拉!比亞迪<b class='flag-5'>史上</b>最強財報兩大看點

    zeta在機器學習的應用 zeta的優缺點分析

    在探討ZETA在機器學習的應用以及ZETA的優缺點時,需要明確的是,ZETA一詞在不同領域可能有不同的含義和應用。以下是根據不同領域的ZETA進行的分析: 一、ZETA在
    的頭像 發表于 12-20 09:11 ?854次閱讀

    cmp在機器學習的作用 如何使用cmp進行數據對比

    機器學習領域,"cmp"這個術語可能并不是一個常見的術語,它可能是指"比較"(comparison)的縮寫。 比較在機器學習的作用 模型
    的頭像 發表于 12-17 09:35 ?750次閱讀

    eda在機器學習的應用

    機器學習項目中,數據預處理和理解是成功構建模型的關鍵。探索性數據分析(EDA)是這一過程不可或缺的一部分。 1. 數據清洗 數據清洗 是機器學習
    的頭像 發表于 11-13 10:42 ?763次閱讀

    基于機器學習的IWR6843AOP跌倒和姿態檢測實現

    電子發燒友網站提供《基于機器學習的IWR6843AOP跌倒和姿態檢測實現.pdf》資料免費下載
    發表于 09-03 10:02 ?2次下載
    基于<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的IWR6843AOP跌倒和姿態<b class='flag-5'>檢測</b>實現

    雙線分音和單線分音的區別

    雙線分音和單線分音是音樂理論的兩種不同的音高表示方法。它們在音樂創作、演奏和理論分析中都有廣泛的應用。 一、雙線分音 概念 雙線分音是指在五線譜上,用兩條平行的線來表示音高的方法。這兩條線可以
    的頭像 發表于 08-23 10:43 ?1503次閱讀

    機器視覺在焊接質量檢測的應用

    的可能性。今天跟隨創想智控小編一起了解機器視覺在焊接質量檢測的應用。 1. 機器視覺原理 機器
    的頭像 發表于 08-13 16:33 ?537次閱讀

    愛普生通過低噪音高級型號擴展了其1英寸平臺IMU產品線M-G370PDT

    愛普生通過低噪音高級型號擴展了其1英寸平臺IMU產品線-M-G370PDT現已上市并批量生產,具有用戶可選擇的加速計輸出范圍和改進的陀螺儀輸出非線性-精工愛普生公司(TSE:6724,“愛普生
    的頭像 發表于 08-13 10:28 ?688次閱讀
    愛普生通過低噪<b class='flag-5'>音高</b>級型號擴展了其1英寸平臺IMU產品線M-G370PDT

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    收到《時間序列與機器學習》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發燒友提供了一個讓我學習時間序列及應用的機會! 前言第一段描述了編寫背景: 由此可知,這是一本關于時間序列進行大數
    發表于 08-11 17:55

    機器學習的數據分割方法

    機器學習,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器
    的頭像 發表于 07-10 16:10 ?2936次閱讀

    深度學習在工業機器視覺檢測的應用

    隨著深度學習技術的快速發展,其在工業機器視覺檢測的應用日益廣泛,并展現出巨大的潛力。工業機器視覺檢測
    的頭像 發表于 07-08 10:40 ?1725次閱讀

    深度學習在視覺檢測的應用

    深度學習機器學習領域中的一個重要分支,其核心在于通過構建具有多層次的神經網絡模型,使計算機能夠從大量數據自動學習并提取特征,進而實現對復
    的頭像 發表于 07-08 10:27 ?1161次閱讀

    機器學習在數據分析的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據中學習規律,為企業和組織提供了更高效、更準確的數據分析能力。本文將深入探討機器
    的頭像 發表于 07-02 11:22 ?1233次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    捕捉復雜非線性模式的場景顯得力不從心。 將時間序列的分析與預測用于大規模的數據生產一直存在諸多困難。 在這種背景下,結合機器學習,特別是深度學習技術的時間序列分析方法,成了研究和應用
    發表于 06-25 15:00

    聲學定義和音高單位

    一、什么是聲學聲音是人類最早研究的物理現象之一,聲學是物理學歷史最悠久而當前仍在前沿的分支學科。聲學,英文Acoustics,指研究機械波的產生、傳播、接收和效應的科學。聲學作為一門跨層次的基礎性
    的頭像 發表于 06-22 08:30 ?1464次閱讀
    聲學定義和<b class='flag-5'>音高</b>單位