在剛剛過去的 Google I/O 2019 上,Google展示了一項(xiàng)名為Live Caption(實(shí)時(shí)字幕)的新功能。它內(nèi)置在Android Q中,可以將手機(jī)上播放的音頻實(shí)時(shí)轉(zhuǎn)化為字幕,適用于播客、視頻網(wǎng)站、語音消息、本地拍攝視頻等場景。
更厲害的是,Live Caption的處理過程全部都在手機(jī)本地完成,不需要上傳到云端,既保證了速度,又保證了安全。Live Caption還有哪些強(qiáng)大之處?這篇文章向你完整介紹。
沒網(wǎng)也能用,在本地進(jìn)行處理
字幕的重要性可能超過了很多人的想象。在一般觀眾眼里,它是可有可無的選項(xiàng),而對(duì)于聽力障礙者,字幕是他們理解內(nèi)容的重要工具,Live Caption正是為他們而設(shè)計(jì)。
在此之前,Google已經(jīng)在YouTube中加入了自動(dòng)字幕,然而世界上還有很多沒有字幕的視頻內(nèi)容,對(duì)于聽力障礙者來說,它們就像沒有聲音的默劇。
能不能給手機(jī)上的所有音頻添加實(shí)時(shí)字幕?這成為了Google的下一個(gè)目標(biāo)。經(jīng)過多個(gè)團(tuán)隊(duì)的努力,這個(gè)方案終于被實(shí)現(xiàn)出來。
不過在最初,系統(tǒng)需要將音頻上傳到云端,然后運(yùn)行一個(gè)2GB的機(jī)器學(xué)習(xí)模型,過程耗時(shí)又不安全。
后來,他們?cè)谑謾C(jī)終端實(shí)現(xiàn)了相同的處理效果,并且只需要運(yùn)行一個(gè)80M的模型,它可以在手機(jī)聯(lián)網(wǎng)時(shí)自動(dòng)更新,然后在沒網(wǎng)狀態(tài)下完全離線運(yùn)行。
Live Caption的優(yōu)勢(shì)主要有三個(gè):第一,完全在本地運(yùn)行,適用于所有場景;第二,數(shù)據(jù)不會(huì)上傳到云端,保證數(shù)據(jù)安全;第三,內(nèi)容創(chuàng)作者和應(yīng)用開發(fā)者不需要做任何工作,就可以讓用戶體驗(yàn)到實(shí)時(shí)字幕。
系統(tǒng)級(jí)的實(shí)時(shí)字幕,支持所有應(yīng)用
在Google的演示中,Live Caption可以在直播、視頻網(wǎng)站、播客、拍攝的本地視頻、社交媒體、語音消息等多種場景下使用。打開方式是點(diǎn)擊音量鍵,點(diǎn)擊實(shí)時(shí)字幕按鈕。
隨著音頻的播放,畫面中央會(huì)顯示動(dòng)態(tài)的實(shí)時(shí)字幕,你可以調(diào)整字幕條的顯示大小,拖動(dòng)它們到任意位置。更神奇的,即使在靜音狀態(tài)下Live Caption也能正常運(yùn)行。
雖然Google主要強(qiáng)調(diào)了Live Caption對(duì)聽力障礙者的作用,但其實(shí)它對(duì)普通用戶也十分有用。
在看視頻的同時(shí)開啟字幕,可以更好地理解內(nèi)容,Google將這個(gè)功能做到了系統(tǒng)底層,就意味著你可以在任何視頻中開啟字幕。另外在會(huì)議和地鐵這樣的特殊場景,你可以在不開啟音頻的情況下理解視頻內(nèi)容。
今年晚些時(shí)候推出
前幾天我們給大家推薦了幾個(gè)「自動(dòng)加字幕」的工具,視頻創(chuàng)作者可以利用它們來減輕工作負(fù)擔(dān)。
不過Google的思路顯然更加徹底,他們將實(shí)時(shí)字幕做成了系統(tǒng)級(jí)的功能,內(nèi)容創(chuàng)作者和應(yīng)用開發(fā)者不需要做任何工作,就能讓用戶隨時(shí)體驗(yàn)到實(shí)時(shí)字幕。
這個(gè)功能集成在Android Q中,一旦普及就能方便大量用戶。
目前Live Caption還無法在Android Q系統(tǒng)中進(jìn)行體驗(yàn)。Android團(tuán)隊(duì)的Brian Kemler透露,它將在今年晚些時(shí)候推出。
由于對(duì)內(nèi)存和空間有要求,Live Caption會(huì)首先出現(xiàn)在高端的Android Q設(shè)備上,之后將支持更多設(shè)備。
-
Android
+關(guān)注
關(guān)注
12文章
3964瀏覽量
129571 -
谷歌
+關(guān)注
關(guān)注
27文章
6223瀏覽量
107536
發(fā)布評(píng)論請(qǐng)先 登錄
Android Studio中的Gemini支持多模態(tài)輸入功能
TLC2578芯片中FS與SDI到底有什么作用?
24位或者說高分辨率的AD到底有什么用呢?
差分輸入和和單端輸入在本質(zhì)上到底有什么區(qū)別?
TFP401APZP到底有沒有HSYNC輸出?
高鐵站網(wǎng)約車數(shù)智出行到底有多智能?
谷歌開始推送Android 15穩(wěn)定版
功放和運(yùn)放到底是什么區(qū)別?
求助,這個(gè)電路U1A運(yùn)放同相端的R1電阻到底有什么作用啊?
lm2902做的二階低通濾波器,無論怎么調(diào)試C1的值,電路的波特圖都保持不變,請(qǐng)問一下C1的作用到底有多大?
無人機(jī)智能巡檢系統(tǒng)到底有哪些作用

評(píng)論