女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分享TensorFlow Lite應(yīng)用案例

Tensorflowers ? 來(lái)源:未知 ? 作者:工程師郭婷 ? 2018-07-26 10:37 ? 次閱讀

從2016年開始,Kika 技術(shù)團(tuán)隊(duì)一直致力于 AI 技術(shù)在移動(dòng)端落地,尤其是在 keyboard 輸入法引擎做了很多算法與工程上的探索工作。2017 年 5 月,Kika 技術(shù)團(tuán)隊(duì)基于 TensorFlow Mobile 研發(fā)了 Kika AI Engine,將其應(yīng)用于 Kika 的全系輸入法產(chǎn)品中。2017 年 11 月,Google 發(fā)布 TensorFlow Lite (TF Lite) 后,Kika 技術(shù)團(tuán)隊(duì)迅速進(jìn)行了跟進(jìn),并于 2018 年 1 月成功地開發(fā)了基于 TF Lite 全新一代的 Kika AI Engine,同時(shí)進(jìn)行了線上產(chǎn)品的更新。

1、移動(dòng)端深度學(xué)習(xí)的技術(shù)選型

輸入法引擎的技術(shù)要求包括:快、準(zhǔn)、全。需要在客戶端環(huán)境下,根據(jù)用戶輸入的上文內(nèi)容以及當(dāng)前鍵入的鍵碼,實(shí)時(shí)進(jìn)行『預(yù)測(cè)』。預(yù)測(cè)的內(nèi)容包括:?jiǎn)卧~,詞組,emoji 等等一切可能通過(guò)輸入法發(fā)送的內(nèi)容。從算法的原理上來(lái)講,這是一個(gè)典型的 RNN 應(yīng)用場(chǎng)景。

輸入法引擎預(yù)測(cè)效果圖

作為輸入法這樣的一個(gè)重度使用的工具類 APP,在移動(dòng)端做輕量化部署非常重要,具體包括以下四個(gè)方面:模型壓縮、快速的響應(yīng)時(shí)間、較低的內(nèi)存占用以及 較小的 so 庫(kù)(shared object,共享庫(kù))大小等。

在 Kika 將 TF Mobile 部署到移動(dòng)端的過(guò)程中,除了 CPU 占用偏高,還有由于 TF Mobile 內(nèi)存管理與內(nèi)存保護(hù)設(shè)計(jì)的問(wèn)題,導(dǎo)致:

內(nèi)存保護(hù)機(jī)制不完善,在實(shí)際內(nèi)存不是很充足的情況(尤其對(duì)于部分低端機(jī)型以及在內(nèi)存消耗較大的應(yīng)用,如大型手游中彈起輸入法),容易引發(fā)內(nèi)存非法操作。

內(nèi)存大小控制機(jī)制存在一定的問(wèn)題,例如模型本身在計(jì)算時(shí)只有 20MB,但加載到內(nèi)存之后的運(yùn)行時(shí)峰值可能會(huì)飆升 40 到 70MB。

TF Lite 對(duì)于 CNN 類的應(yīng)用支持較好,目前對(duì)于 RNN 的支持尚存在 op 支持不足的缺點(diǎn)。但是考慮到內(nèi)存消耗和性能方面的提升,Kika 仍然建議投入一部分的研發(fā)力量,在移動(dòng)端考慮采用 TF Lite 做為基于 RNN 深度學(xué)習(xí)模型的 inference 部署方案。

2. TensorFlow Lite 對(duì) RNN/LSTM based 模型的原生支持情況

相對(duì)于 CNN 而言,TF Lite 對(duì)于 RNN/LSTM 的支持程度稍顯不足。目前的情況是,RNN 相關(guān)的基本元素的 op 目前都已經(jīng)支持,最近也剛剛支持了 LSTM,但遺憾的是 beamSearch 支持暫時(shí)還沒(méi)有完成。

不支持的 op 主要集中有兩大類情況:

包括控制流 (control flow) 的 op

相對(duì)于 TF mobile,TF Lite 的部分 op 只支持最簡(jiǎn)單的 case

目前的一個(gè)好的消息就是 TensorFlow 項(xiàng)目組一直在持續(xù)的推進(jìn)對(duì) RNN 系列的支持。

3. 如何應(yīng)對(duì) op 缺失的情況

對(duì)于移動(dòng)端用 TF Lite 部署最友好的開發(fā)姿勢(shì)是在設(shè)計(jì)模型之處就了解當(dāng)前的 TF Lite版本哪些 op 是缺失或者功能不完整的,然后在模型設(shè)計(jì)過(guò)程中:

盡量避免使用這些 TF Lite 不支持的 op;

對(duì)于不得不使用的情況,也需要結(jié)合具體的業(yè)務(wù)邏輯,優(yōu)化設(shè)計(jì),使得在移動(dòng)端部署的二次開發(fā)的工作量盡可能的小。

以下是應(yīng)對(duì) op 缺失的一些常見做法。

組合

最為常見的處理方式,例如在早期的 TF Lite 版本中,tf.tile 和 tf.range 都不支持,這個(gè)時(shí)候建議采用 broadcast_add 來(lái)組合代替實(shí)現(xiàn)。

補(bǔ)充

TF mobile 的 op 相當(dāng)于完整版的 TensorFlow,于此相比,TF Lite 缺失最嚴(yán)重的是包含控制流的部分。例如 seq2seq 模型中常用的 beam search。

補(bǔ)充的方式有兩種:

直接開發(fā)一個(gè)全新的 op;

在 TF Lite 之外的上層 api 中實(shí)現(xiàn) (此時(shí)可能需要拆解模型)。

兩種方式各有優(yōu)劣,具體的需要根據(jù)功能的復(fù)雜度和業(yè)務(wù)邏輯決定。

模型拆分

1) 原因

需要模型拆分的原因一般有 3 個(gè):

訓(xùn)練時(shí)用流程控制的方式(如 batch)一次性跑完多個(gè)樣本,但在 Inference 的過(guò)程中,需要用到單步運(yùn)行;

某些 op 不支持,需要在 TF Lite 的上層『手動(dòng)』實(shí)現(xiàn),可能需要將原有的模型拆分為若干的子模型 (sub graph);

有部分的冗余,但是重新設(shè)計(jì) graph 再訓(xùn)練的時(shí)間代價(jià)較大。

2) 方法與坑

以下通過(guò)一個(gè)實(shí)例來(lái)描述如何進(jìn)行模型的拆分。

將 variable 共享給不同的 op,甚至于不同的 sub graph,通用做法是 采用 `placeholder` 的方式將輸入輸出分開,然后在導(dǎo)出 freeze graph 的時(shí)候用 `tf.graph_util.convert_variables_to_constants` 只抓取需要的部分。

代碼實(shí)例:

python

vars = tf.get_variable(。..)

inputs = tf.placeholder(‘inputids’, shape=[BATCH, None], 。..)

embs = tf.nn.embedding_lookup(vars, inputs)

cells = tf.nn.rnn_cell.MultiRNNCell(。..)

output, state = tf.nn.dynamic_rnn(cells, embs, 。..)

實(shí)際整合進(jìn)入客戶端產(chǎn)品 inference 的時(shí)候,可能存在的坑:

可能不需要 `BATCH`,雖然可以每次都指定 batch 為 1,但對(duì)于 TF 來(lái)說(shuō),

batch = 1 跟直接沒(méi)有這個(gè)維度的模型結(jié)構(gòu)并不同;

如果都需要單步運(yùn)行的話,`dynamic_rnn` 也不需要,而且這里有大量流程控制 (最新的 TF Lite 開始逐步的對(duì) dynamic rnn 進(jìn)行了支持)。

對(duì)于后端的模型算法工作者來(lái)說(shuō),寫出上述的訓(xùn)練代碼是一件非常自然的事情。如果我們既想保持后端代碼的普適和自然度,又想要快速實(shí)現(xiàn)能夠在客戶端部署,需要作出如下的事情:

python

prod_inputs = tf.placeholder(‘prod_inputids’, shape=[None], 。..)

prod_embs = tf.nn.embedding_lookup(vars, prod_inputs)

prod_output, prod_state = cells(prod_embs, 。..)

其中有 3 個(gè)需要被注意的地方:

RNN cell 本身可以被調(diào)用。同一個(gè) cell 如果想讓多個(gè)地方同時(shí)調(diào)用,內(nèi)部 variable 只會(huì)產(chǎn)生一次。

一般聲明的 variables 如果是用 `tf.get_variable()` 出來(lái)的,直接用即可。

另外一個(gè)方式是可以考慮采用 `tf.variable_scope(reuse=True)` 的方式重寫 inference 的過(guò)程,以解耦 training 和 inference 的代碼,代價(jià)就是整個(gè) graph 會(huì)偏大,但是優(yōu)點(diǎn)使得進(jìn)行 sub graph 切分的工作變得更加簡(jiǎn)單。

python

with tf.variable_scope(‘my_network’):

vars = tf.get_variable(。..)

inputs = tf.placeholder(‘inputids’, shape=[BATCH, None], 。..)

embs = tf.nn.embedding_lookup(vars, inputs)

cells = tf.nn.rnn_cell.MultiRNNCell(。..)

output, state = tf.nn.dynamic_rnn(cells, embs, 。..)

# 。..

with tf.variable_scope(‘my_network’, reuse=True):

vars = tf.get_variable(。..)

prod_inputs = tf.placeholder(‘prod_inputids’, shape=[None], 。..)

prod_embs = tf.nn.embedding_lookup(vars, prod_inputs)

prod_cells = tf.nn.rnn_cell.MultiRNNCell(。..)

prod_output, prod_state = prod_cells(prod_embs, 。..)

在進(jìn)行這些『切分』操作的時(shí)候需要注意到幾個(gè)問(wèn)題:

1. `tf.Variable()` 和 `tf.get_variable()`

盡量用后者,因?yàn)閌tf.Variable()`對(duì) variable scope 無(wú)效。

2. 部分 op 有隱藏的 optional argument

有些 op 有 optional argument,如果不指定的話,可能會(huì)自動(dòng)引入一些額外的 op 來(lái)代入默認(rèn)值。這樣偶爾會(huì)引入一些 TF Lite 不支持的 op。例如:

python

softmax = tf.nn.softmax(logits)

其實(shí)有個(gè)參數(shù) axis 默認(rèn)是 -1 ,也就是最后一個(gè)維度。不寫明的話 TF 會(huì)『默認(rèn)』插入一些 op 在運(yùn)行時(shí)幫你計(jì)算:

python

axis = tf.sub(tf.shape(logits), tf.constant(1))

`tf.shape()` 在 TF Lite 一直到最近才支持,而且只要調(diào)用的時(shí)候直接寫明,并不需要在運(yùn)行時(shí)算:

python

# logits has shape [1, VOCABS]

softmax = tf.nn.softmax(logits, axis=1)

這類 op 暫時(shí)沒(méi)有系統(tǒng)性的方式可以辨認(rèn) (spec 上沒(méi)寫),只能等到試錯(cuò)的時(shí)候才會(huì)被發(fā)現(xiàn)。

因此,在實(shí)際操作的時(shí)候?qū)τ谀J(rèn)參數(shù),需要特別的注意。

4. toolchain -- 模型轉(zhuǎn)換與整合

拆完以后的模型仍然是一個(gè) protobuffer 格式,要先把它轉(zhuǎn)換成 tflite 的 flatbuffers 格式才能用。

轉(zhuǎn)換工具可以直接采用 TF 官方的轉(zhuǎn)換工具。比如在kika 我們的 toolchain 是這樣的:

bash

git clone -b tflite https://github.com/KikaTech/tensorflow.git

cd tensorflow/kika

bazel build -s -c dbg

@org_tensorflow//tensorflow/contrib/lite/toco:toco

//graph_tools/python:tf2lite

//graph_tools/python:tfecho

//graph_tools/python:quantize

第一個(gè)就是模型轉(zhuǎn)換工具 toco,建議采用獨(dú)立的命令行版本,而不是采用 python API,目前對(duì)于 OSX 這樣的系統(tǒng),會(huì)有一些編譯上的問(wèn)題,同時(shí)編譯的耗時(shí)也比較長(zhǎng)。

第二個(gè)是一個(gè)包含 toco 的小啟動(dòng)器,因?yàn)?toco 從命令列呼叫起來(lái)的話要填的參數(shù)比較多,所以這個(gè)啟動(dòng)器會(huì)使用 tensorflow 查詢一些可以自動(dòng)填的參數(shù),來(lái)降低手動(dòng)填的參數(shù)數(shù)量。

第三個(gè)就是量化工具。如果只是要驗(yàn)證 graph 能否在 TF Lite 上運(yùn)行,不需要用到。如果要整合進(jìn)客戶端產(chǎn)品的話,還會(huì)經(jīng)過(guò)量化把模型體積壓縮后才推送至用戶手機(jī) (或打包進(jìn)安裝包),在用戶手機(jī)上做一次性的還原后才能運(yùn)行。

5. 效果分析: TF Lite 帶來(lái)的收益

在客戶端實(shí)現(xiàn)基于 TF Lite 模型的部署之后,我們分別測(cè)試了同一模型在 TF 完全版(TF Mobile)和 TF Lite 10, 000 次 Inference 的資源消耗情況,如下圖所示。主要的 Metrics 包括內(nèi)存占用 (memory),運(yùn)行時(shí)間(speed)和靜態(tài)鏈接庫(kù)的大小 (image size)。

TF Lite based model performance metrics

可以看到,各項(xiàng) Metrics 都得到的大幅的優(yōu)化,這對(duì)于提升產(chǎn)品的整體性能與穩(wěn)定度都是十分有利的。

6. TensorFlow 與 Kika

除了輸入法引擎之外,Kika 技術(shù)團(tuán)隊(duì)近年來(lái)也一直在致力于采用 AI 技術(shù)解決內(nèi)容推薦,語(yǔ)音識(shí)別和自然語(yǔ)義理解方面等方面的諸多實(shí)際問(wèn)題,在客戶端和服務(wù)端部署分別采用 TF Lite 和 TF Serving 這兩個(gè)基于 TensorFlow 的優(yōu)秀框架。后續(xù) Kika 技術(shù)團(tuán)隊(duì)將持續(xù)帶來(lái)關(guān)于 Kika 在 TF Lite 和 TF Serving 實(shí)踐中的經(jīng)驗(yàn)分享。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34090

    瀏覽量

    275200
  • 引擎
    +關(guān)注

    關(guān)注

    1

    文章

    366

    瀏覽量

    22874
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5554

    瀏覽量

    122443
  • TensorFlow Lite
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    713

原文標(biāo)題:TensorFlow Lite在Kika Keyboard中的應(yīng)用案例分享

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    物聯(lián)網(wǎng)工程師為什么要學(xué)Linux?

    均基于Linux二次開發(fā)。 2)邊緣計(jì)算與AI整合 隨著邊緣智能設(shè)備的普及,Linux在輕量化AI模型部署(如TensorFlow Lite)和異構(gòu)計(jì)算(ARM+GPU)中占據(jù)核心地位。 對(duì)于物
    發(fā)表于 05-26 10:32

    【米爾-STM32MP257開發(fā)板試用體驗(yàn)】初次體驗(yàn)米爾-STM32MP257開發(fā)板

    預(yù)構(gòu)建二進(jìn)制文件提供的人臉識(shí)別應(yīng)用程序基于 STMicroelectronics 重新訓(xùn)練的模型。 這些示例依賴于基于 [TensorFlow? Lite]推理引擎、[ONNX 運(yùn)行時(shí)
    發(fā)表于 04-30 16:21

    意法半導(dǎo)體邊緣AI套件中提供的全部工具

    開發(fā)工具 ? STM32Cube.AI ? ? 功能 ?:將主流AI框架(如TensorFlow Lite、ONNX等)訓(xùn)練的模型轉(zhuǎn)換為STM32微控制器優(yōu)化的代碼,支持模型壓縮與量化,自動(dòng)評(píng)估內(nèi)存占用
    的頭像 發(fā)表于 04-21 17:46 ?457次閱讀

    客戶說(shuō) 為什么我們淘汰了某某某網(wǎng)關(guān)選擇深控技術(shù)? ——某跨國(guó)食品集團(tuán)數(shù)字化轉(zhuǎn)型負(fù)責(zé)人訪談實(shí)錄

    深控技術(shù)憑借其成熟的維護(hù)成本直降68%的奧秘成本對(duì)比數(shù)據(jù)表和無(wú)限可能的協(xié)議兼容性實(shí)測(cè),解決某乳品產(chǎn)線的“七年之癢”,讓企業(yè)從束手束腳到“無(wú)限可能”。此外,深控技術(shù)的邊緣處理能力也遠(yuǎn)超某某品牌,支持TensorFlow Lite/ONN...
    的頭像 發(fā)表于 04-21 14:39 ?88次閱讀
    客戶說(shuō) 為什么我們淘汰了某某某網(wǎng)關(guān)選擇深控技術(shù)? ——某跨國(guó)食品集團(tuán)數(shù)字化轉(zhuǎn)型負(fù)責(zé)人訪談實(shí)錄

    i.mx95的EIQ轉(zhuǎn)換器將int8更改為uint8后出現(xiàn)報(bào)錯(cuò)怎么解決?

    我有一個(gè)大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。 我正在運(yùn)行 eIQ 模型工具版本 1.14.0 將模型轉(zhuǎn)換為 i.MX95
    發(fā)表于 04-14 07:15

    FlexBuild構(gòu)建Debian 12,在“tflite_ethosu_delegate”上構(gòu)建失敗了怎么解決?

    /workspace/tn_debian_FlexBuild 構(gòu)建/components_lsdk2412/apps/ml/tflite/tensorflow/lite/tools/cmake
    發(fā)表于 04-01 06:53

    Nordic nRF54 系列芯片:開啟 AI 與物聯(lián)網(wǎng)新時(shí)代?

    。通過(guò)支持 TensorFlow Lite Micro 等多種 AI 和 ML 框架,nRF54H20 讓低功耗設(shè)備實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)處理和分析成為現(xiàn)實(shí)。無(wú)論是智能可穿戴設(shè)備對(duì)人體健康數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)與分析
    發(fā)表于 04-01 00:18

    工業(yè)4.0革命利器!明遠(yuǎn)智睿SSD2351核心板:低成本+高算力,破解產(chǎn)線智能化難題

    ; IPU單元支持人臉檢測(cè)、Transformer網(wǎng)絡(luò)推理,兼容TensorFlow Lite模型部署。 接口全能: 雙10/100M以太網(wǎng)MAC + 6路UART(含4路帶流控制),支持
    發(fā)表于 03-21 14:22

    2.3T算力,真的強(qiáng)!1分鐘學(xué)會(huì)NPU開發(fā),基于NXP i.MX 8MP平臺(tái)!

    潛力。 ? ? i.MX 8M Plus NPU特性 i.MX 8M Plus的NPU支持INT16/INT32/FP16/FP32等多種數(shù)據(jù)類型,兼容性卓越,與TensorFlow Lite/Arm
    的頭像 發(fā)表于 01-24 10:21 ?532次閱讀
    2.3T算力,真的強(qiáng)!1分鐘學(xué)會(huì)NPU開發(fā),基于NXP i.MX 8MP平臺(tái)!

    新唐科技基于NuMaker-M55M1平臺(tái)的人臉識(shí)別系統(tǒng)

    、TensorFlow Lite、Haar Cascade 和 MobileFaceNet,實(shí)現(xiàn)高效且準(zhǔn)確的識(shí)別功能,并展現(xiàn)了嵌入式系統(tǒng)的強(qiáng)大應(yīng)用潛力。
    的頭像 發(fā)表于 01-20 10:31 ?549次閱讀

    HM-BT2401DA,首次“AI化”的藍(lán)牙模組有多“能打”?

    與FLASH,同時(shí)華普微還借助TensorFlow Lite Micro將機(jī)器學(xué)習(xí)模型進(jìn)行了量化和優(yōu)化,使其能夠在HM-BT2401DA MCU的有限資源中高效運(yùn)行。
    的頭像 發(fā)表于 12-20 14:16 ?433次閱讀
    HM-BT2401DA,首次“AI化”的藍(lán)牙模組有多“能打”?

    在設(shè)備上利用AI Edge Torch生成式API部署自定義大語(yǔ)言模型

    我們很高興地發(fā)布 AI Edge Torch 生成式 API,它能將開發(fā)者用 PyTorch 編寫的高性能大語(yǔ)言模型 (LLM) 部署至 TensorFlow Lite (TFLite) 運(yùn)行時(shí)
    的頭像 發(fā)表于 11-14 10:23 ?906次閱讀
    在設(shè)備上利用AI Edge Torch生成式API部署自定義大語(yǔ)言模型

    第四章:在 PC 交叉編譯 aarch64 的 tensorflow 開發(fā)環(huán)境并測(cè)試

    本文介紹了在 PC 端交叉編譯 aarch64 平臺(tái)的 tensorflow 庫(kù)而非 tensorflow lite 的心酸過(guò)程。
    的頭像 發(fā)表于 08-25 11:38 ?2128次閱讀
    第四章:在 PC 交叉編譯 aarch64 的 <b class='flag-5'>tensorflow</b> 開發(fā)環(huán)境并測(cè)試

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發(fā)的一個(gè)開源深度學(xué)習(xí)框架,它允許開發(fā)者方便地構(gòu)建、訓(xùn)練和部署各種復(fù)雜的機(jī)器學(xué)習(xí)模型。TensorFlow憑借其高效的計(jì)算性能、靈活的架構(gòu)以及豐富的工具和庫(kù),在學(xué)
    的頭像 發(fā)表于 07-12 16:38 ?1171次閱讀

    【正點(diǎn)原子i.MX93開發(fā)板試用連載體驗(yàn)】基于深度學(xué)習(xí)的語(yǔ)音本地控制

    實(shí)現(xiàn)語(yǔ)音智能識(shí)別功能。 項(xiàng)目計(jì)劃 1)根據(jù)文檔,學(xué)習(xí)i.MX的AI開發(fā)環(huán)境和相關(guān)的程序框架。 2)利用TensorFlow Lite框架進(jìn)行語(yǔ)音識(shí)別的模型建立和訓(xùn)練工作。 3)將所訓(xùn)練的模型移植到NXP
    發(fā)表于 06-30 10:49