這兩天被子彈短信這款剛剛完成 1.5 億元融資的即時(shí)通訊應(yīng)用刷屏了。許多朋友發(fā)了子彈短信的聯(lián)系人二維碼,還有一些朋友在問子彈短信是什么,到底有什么好?
子彈短信是什么?為什么這么火?
我們從產(chǎn)品分析的角度跟大家探討其中一個(gè)功能:子彈短信在發(fā)送語音信息時(shí),不僅會(huì)把語音轉(zhuǎn)化成文字,還能同時(shí)把語音保留下來。
許多朋友問了:微信不是也能做到嗎?在此我想先描述一下微信語音的這個(gè)功能,再跟大家聊聊子彈短信軟件對這個(gè)功能的重新詮釋。
微信從爆發(fā)之初開始,立足于極致的用戶體驗(yàn)。它的語音留言(也叫對講機(jī))功能是早期吸引用戶和拉動(dòng)流量的一個(gè)重要的來源。
這個(gè)功能是這樣的:用戶進(jìn)入聊天目錄之后,打開某個(gè)與聯(lián)系人的對話,然后按下屏幕下方的麥克風(fēng)按鈕,說一段話,然后松手發(fā)出。對方接受到的是一個(gè)條狀按鈕,點(diǎn)擊之后會(huì)播放收到的語音,語音時(shí)常不超過60秒。
語音的數(shù)據(jù)都經(jīng)過高度壓縮,可以在犧牲音質(zhì)的情況下非常好地節(jié)省流量。接收方和發(fā)送方都可以長按這個(gè)語音條,在彈出的選項(xiàng)中選擇”語音轉(zhuǎn)文字“,就可以把語音轉(zhuǎn)化成文字,通常需要30秒-2分鐘。
不知道大家有沒有這種經(jīng)歷:收到了來自一個(gè)朋友的語音,有時(shí)候甚至是連著好幾條長達(dá)幾十秒的消息。因?yàn)楫?dāng)時(shí)沒有辦法花3-5分鐘全部聽完、或者碰巧在會(huì)議室、教室、圖書館或者工作崗位等需要安靜、不方便播放語音的場合,所以暫時(shí)擱置了。一整天過完,本來想在晚上再整理一下今天的消息,因?yàn)樾碌南⒑腿毫挠咳?,這個(gè)對話就埋沒在幾十條消息之下,就再也沒想起來要聽這條消息,徹底忘記了。
不少人都有過被長語音轟炸、刷屏的經(jīng)歷
這個(gè)現(xiàn)象的本質(zhì)原因是因?yàn)槲淖挚梢蕴x,而語音無法跳聽。或者用我們程序員的術(shù)語說,就是“線性訪問(Linear Access)” 或者 “非線性訪問(Non-Linear Access)”這兩個(gè)概念,也叫“非隨機(jī)訪問(NonRandom Access)”和“隨機(jī)訪問(Random Access)”。例如,磁帶就是線性、非隨機(jī)的訪問,而常見的內(nèi)存就是非線性、隨機(jī)訪問。
文字可以進(jìn)行跳讀,就可以瀏覽、略讀等快速讀取法。我們在小學(xué)語文學(xué)過的中心句歸納法、英文習(xí)作的文段首句要概括全段,以及咨詢領(lǐng)域大名鼎鼎的“麥肯錫方法——金字塔閱讀/寫作”等方法,都是基于文字的“非線性讀取”型。
因?yàn)橛蟹蔷€性訪問能力,所以才能在快速訪問過程中不影響對信息的處理,可以用樹狀邏輯結(jié)構(gòu)來組織信息,從而為更高速的訪問信息創(chuàng)造了可能。在日常生活中就體現(xiàn)在,我寫這篇文章用了一個(gè)小時(shí),而你讀完本文可能只需要3-5分鐘。
因?yàn)檎Z音無法跳聽,帶來了很大的不便。有人說,微信不是也有語音轉(zhuǎn)換功能嗎?這并不一樣,因?yàn)槲⑿诺恼Z音轉(zhuǎn)換是接受方做的,所以語音轉(zhuǎn)換需要接受方介入,需要接受方在瀏覽的時(shí)候中斷手上的事情,把各個(gè)語音逐一點(diǎn)擊長按選取轉(zhuǎn)換,造成了對接受方的“線性訪問”的額外負(fù)擔(dān),無法略讀,因此降低了速度。
因?yàn)檫@種不便,導(dǎo)致了微信逐漸上有這么一個(gè)基本的禮儀:在條件允許的情況下,為了接受方的便利,最好用語音輸入法先把語音手動(dòng)轉(zhuǎn)換成文字再發(fā)給對方。甚至還有朋友認(rèn)為向長輩、客戶和上級發(fā)送語音是有失禮儀的。這固然是仁者見仁、智者見智的價(jià)值判斷,但是凸顯了發(fā)送語音對接受方的不便,已經(jīng)是公認(rèn)的一個(gè)問題。
子彈短信和之前錘子科技的“閃念膠囊”都采用語音轉(zhuǎn)換成文字同時(shí)保留原語音的功能。相對于微信的接收方負(fù)責(zé)語音轉(zhuǎn)換,子彈短信則是發(fā)送方進(jìn)行文字轉(zhuǎn)化,于是語音到文字的轉(zhuǎn)化發(fā)生在發(fā)送端——信息源端。
這樣做有幾個(gè)好處:第一,校對的工作在信息的源頭處理,可以確保如果轉(zhuǎn)換錯(cuò)誤太多,信息源(發(fā)送方)可以重新錄制和編輯校正。第二,讓接受方可以閱讀文字,在無法理解的少數(shù)錯(cuò)誤情況下,可以聽取語音來理解和糾錯(cuò)。第三,減少和避免了在群里發(fā)語音的時(shí)候,多個(gè)不同接受方都提出轉(zhuǎn)換文字的請求造成的云服務(wù)器后臺的額外負(fù)擔(dān)。另外,子彈短信的語音條是可以有進(jìn)度條可供拖動(dòng)的,方便快速跳過一部分語音。這樣做的好處是發(fā)送方可以很便捷的發(fā)送消息,只在必要的情況下校對修改,比打字便利。接受方依然可以快速讀取,比聽語音便利。
從此,再也不用擔(dān)心給別人發(fā)語音消息帶來的不便了。
子彈短信向前一小步,人工智能倒退一大步?
它推出的大背景,是語音識別能力的提高是近幾年是人工智能的一大進(jìn)步之一。子彈短信保留了語音,方便聽者對語音內(nèi)容進(jìn)行校對。
為什么要校對呢?這是因?yàn)檎Z音識別目前的轉(zhuǎn)化準(zhǔn)確率還不是很高,特別是在環(huán)境嘈雜或者用詞比較不常見(行業(yè)術(shù)語、需要上下文信息加以判斷的內(nèi)容等)的時(shí)候,準(zhǔn)確率就更差了。如果能夠語音識別非常準(zhǔn)確,那么根本不需要保留語音,只保留文字就夠了。所以有人說,語音保留的這個(gè)功能受到人們歡迎,宣示著人工智能的不完善,是一個(gè)倒退。
語音識別技術(shù)的挑戰(zhàn),涉及到人工智能領(lǐng)域的語音特征提取、自然語言處理和對對話內(nèi)容的背景知識(context)和常識(common sense)等知識圖譜的大量獲取、積累和篩選。有的語音輸入法號稱有97%的準(zhǔn)確率,實(shí)際體驗(yàn)是80~90%。
更重要的是,這里還有一個(gè)信息學(xué)領(lǐng)域的長尾現(xiàn)象在起作用:那些最不容易識別的部分,往往攜帶最重要的信息要素。
打個(gè)比方,有一個(gè)說法說“學(xué)會(huì)2000個(gè)英文單詞,就能看懂英文報(bào)紙90%的內(nèi)容”。其實(shí)學(xué)了小學(xué)英語一看英文報(bào)紙,發(fā)現(xiàn)這里的 2000 個(gè)單詞,都是 the、a、of 之類不帶信息量的詞匯。
真正攜帶信息量的是那些不常出現(xiàn)的單詞。這些高級詞匯或者術(shù)語名詞不常出現(xiàn),所以一出現(xiàn)必定是攜帶特定信息而來的。根據(jù)信息學(xué)里面的定義,信息量就是用來衡量一個(gè)信息可以降低系統(tǒng)狀態(tài)的不確定性的程度。如果一個(gè)詞匯常出現(xiàn),因?yàn)槊恳黄恼露加羞@些詞匯,帶有詞匯對降低文章信息不確定性幫助不大,則其攜帶的增量信息就少了。
這也正是人工智能的最大挑戰(zhàn)。2010 年以來,人工智能進(jìn)行了長足進(jìn)步,語音和圖片識別的準(zhǔn)確率大幅提升。然而人工智能在識別效果等方面的作用還有很大的發(fā)展空間,即使在一些已經(jīng)多數(shù)情況超過人類的智能領(lǐng)域,人類比計(jì)算機(jī)依然有著適應(yīng)力、容錯(cuò)率強(qiáng)的優(yōu)勢。
用電腦,還是用人腦?這成了人工智能工業(yè)革命以來的一個(gè)大問題。我們所說的聊天應(yīng)用里面的識別語音就是這個(gè)問題在我們身邊的一個(gè)例子。究竟是發(fā)送者自己把文字打出來,還是讓機(jī)器幫我們識別出來,就成了“用人腦,還是用電腦”的選擇。
這是不僅是一個(gè)哲學(xué)問題、也是一個(gè)工程學(xué)問題。這個(gè)問題并不是一個(gè)新問題,與之類似的還有比如無人駕駛汽車?yán)锩嫒祟惖鸟{駛應(yīng)該有多少,能否完全無人干預(yù)?超市的自動(dòng)售貨或者結(jié)算程度要到什么程度,能否完全實(shí)現(xiàn)無人超市?
在二十世紀(jì)50-60年代,美蘇空間爭霸的時(shí)候,蘇聯(lián)的宇宙飛船設(shè)計(jì)里面長期是不提供手動(dòng)駕駛能力的。因?yàn)樘K聯(lián)進(jìn)行過幾十次的用“飛行犬”代替飛行員試飛,飛船已經(jīng)可以實(shí)現(xiàn)遠(yuǎn)程遙控或者自主飛行的駕駛能力,所以飛行員也不需要駕駛。
盡管后來加加林飛行的時(shí)候飛船加上了手動(dòng)駕駛功能,在加加林遇險(xiǎn)需要手動(dòng)駕駛的時(shí)候,還需要打開密封的信封輸入密碼才能切換到駕駛。作為蘇聯(lián)當(dāng)時(shí)最優(yōu)秀的飛行員之一,加加林最后通過自己的手動(dòng)駕駛救了自己一命,也拯救了一艘飛船和蘇聯(lián)的航空進(jìn)程的一部分。
最近的幾十年,人工智的性能和效果越來越好,甚至在許多應(yīng)用場景下比人類更可靠。但是至少在一部分最糟糕的情況下,人類能做一些計(jì)算機(jī)可能很長時(shí)間都做不到的事情——例如聊天中對語音的識別。在這個(gè)時(shí)候,完全拋棄計(jì)算機(jī)的智力能力(例如只用人工手動(dòng)輸入),那么人類就無法享受科技帶來的便捷。而完全拋棄人工干預(yù)修正的能力,則會(huì)在機(jī)器出錯(cuò)的關(guān)鍵時(shí)候無法修正。
子彈短信這個(gè)語音轉(zhuǎn)文字同時(shí)保留語音的,其背后的哲學(xué)理念其實(shí)就是既用電腦,也用人腦。看似是在應(yīng)用人工智能方向這件事上退后了一步,其實(shí)是一個(gè)進(jìn)步。(轉(zhuǎn)自載思考)
-
人工智能
+關(guān)注
關(guān)注
1807文章
49036瀏覽量
249793
原文標(biāo)題:子彈短信向前一小步,人工智能倒退一大步?
文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
人工智能推理及神經(jīng)處理的未來

亥步多模態(tài)醫(yī)療大模型發(fā)布:人工智能引領(lǐng)醫(yī)療新紀(jì)元
嵌入式和人工智能究竟是什么關(guān)系?
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
risc-v在人工智能圖像處理應(yīng)用前景分析
OpenAI等簽署歐盟《人工智能公約》
人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析
人工智能ai4s試讀申請
名單公布!【書籍評測活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新
報(bào)名開啟!深圳(國際)通用人工智能大會(huì)將啟幕,國內(nèi)外大咖齊聚話AI
利用人工智能改變 PCB 設(shè)計(jì)

評論