女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

那段記憶中的聲音:單式評書再現(xiàn)江湖背后的AI技術(shù)

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2021-09-20 19:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“聽眾朋友們,你們好。從今兒個,由我為大家播講懸疑小說,《江湖消亡史:北平暗夜》。這個故事發(fā)生在民國十幾年的北京城里……”情感充沛的評書腔調(diào),蒼勁沙啞的嗓音,單田芳大師的“聲音”再次響起,熱愛評書的朋友一聽恍若隔世,已故的單老評書怎么突然回來了?

三年前,無數(shù)人感慨世上再無“下回分解”,網(wǎng)友們的呼喚被聽見了,為致敬單老,也為給遍布大江南北的書迷朋友們一個驚喜,喜馬拉雅運用AI技術(shù)讓“書接上回”重現(xiàn)江湖。

b2b7740adf3d4a78ba81bc2bec755073?from=pc

耳熟能詳單老的“下回分解”故事重新回歸,這段記憶中的聲音背后,是來自于喜馬拉雅的語音合成(TTS: Text-to-speech)技術(shù),即將文字轉(zhuǎn)化為聲音,喜馬拉雅的技術(shù)團隊還將單田芳先生的AI合成音應(yīng)用于六部風(fēng)格各異的書籍,用單式評書腔調(diào),全新演繹聽眾耳熟能詳?shù)慕?jīng)典之作。

語音AI讓單老聲音重?zé)ㄐ律?/p>

不熟悉評書的朋友們可能不知道單老的魅力。在北方的出租車上,遇到司機在播放單老的評書概率還是蠻高的,而在喜馬拉雅的評書類目中,單老的專輯評書節(jié)目長期在熱播榜前列。例如,《亂世梟雄》在喜馬拉雅的播放量近24億,《白眉大俠》播放量近20億。在民間也有個說法:“凡有井水處,皆聽單田芳。”喜愛他的書迷遍布大江南北,故事中的魅力經(jīng)過單老情感充沛的演繹極富有味道。

6a0ab44219f24454bf240d023ade3ef1?from=pc

打開喜馬拉雅,在《單田芳聲音 AI 重現(xiàn)系列》專輯中,既有直擊淚點、奇人異事道盡人生悲歡的武俠小說——趙晨光的《江湖消亡史:北平暗夜》,也有傳達時代脈動的紀(jì)實文學(xué)——陳廷一的《毛氏三兄弟:三兄弟與共和國奠基》,還有時下流行、故事情節(jié)曲折奇特的推理小說——紫金陳的《無證之罪》,更有延續(xù)單老生前未完成的評書經(jīng)典——宮白羽的《十二金錢鏢》……

這些經(jīng)典之作讓評書愛好者像過年一般。大家想念單式評書中的故事與人生,人物的百轉(zhuǎn)千回與俠義灑脫。單老的聲音與跌宕起伏的故事加起來就等于完美,讓人立馬沉浸在故事的世界中。很多書評愛好者都留言表示:怎么沒有早點用AI技術(shù)啊,讓人癡癡等了好幾年。幸運的是,有人在為傳統(tǒng)藝術(shù)默默出力,完美復(fù)現(xiàn)單老聲音的背后,是來自于喜馬拉雅智能語音實驗室團隊的AI技術(shù)。

據(jù)喜馬拉雅智能語音實驗室盧恒博士的介紹,喜馬拉雅智能語音實驗室運用TTS 技術(shù),融入團隊自主設(shè)計的韻律提取模塊以及專門的口音模塊,才得以實現(xiàn)原汁原味的單老獨特聲線。

TTS技術(shù)早已在喜馬拉雅電子書、新聞等領(lǐng)域?qū)崿F(xiàn)了廣泛的應(yīng)用,能夠高效地將新聞、書籍和文章中的大量文字信息轉(zhuǎn)為音頻,大幅提升了音頻的生產(chǎn)效率。但是主流的TTS 框架模型是對音頻內(nèi)容直接進行提取和合成,最終成型的內(nèi)容效果整體上來說人的那部分情感和情緒都顯得很寡淡。而在評書這個場景中,韻律的起伏非常大,正是因為韻律的變化才使得評書引人入勝,平淡的情緒和腔調(diào)帶來的后果就非常致命了,而這也是TTS技術(shù)中的難點。

喜馬拉雅智能語音實驗室自主設(shè)計的韻律提取模塊,無論單田芳先生評書中的韻律多么豐富和多變,都能提取并完全復(fù)刻出來,這才讓單老的AI合成音仿佛本尊再現(xiàn)。

另外,評書中有很多特殊口音,比如口語化的評書中,“這個”中的“這”字,普通話發(fā)音“zhè”,但在評書中通常讀為“zhèi”,跟普通話的發(fā)音有很大的區(qū)別。為此,喜馬拉雅團隊專門做了特殊重音和停頓的標(biāo)注,才使單老AI合成音能夠還原出老味道。

除了高度還原單老的聲音外,在新的專輯中,也加入了高級音效設(shè)計師的配樂與音效,讓聽眾通過耳朵就能獲得身臨其境的沉浸式體驗,評書中的世界立馬變得立體和生動起來。

通過這些彎彎折折,單式評書才得以重見天日。

天生相互吸引:內(nèi)容與AI語音技術(shù)的邂逅

我們聽到的原汁原味的單老“聲音”,其完美復(fù)現(xiàn)并非偶然,而這也只是喜馬拉雅TTS技術(shù)的冰山一角。喜馬拉雅已在智能語音技術(shù)上深耕多年,尤其是在TTS領(lǐng)域方面潛心鉆研多年。

目前TTS在業(yè)界的發(fā)展十分迅速,國內(nèi)布局TTS賽道的有一線大廠,比如阿里擁有的語音合成技術(shù)KAN-TTS,騰訊云在語音合成方面也有技術(shù)研發(fā)。國外像DeepMind創(chuàng)建的語音合成器WaveNet,讓語音合成的音質(zhì)有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音頻波形的深層神經(jīng)網(wǎng)絡(luò)模型—“WaveNet”,并在一年多的時間內(nèi)將原始模型的效率提高了1000倍,而在一組美式英語的人類聽眾測試中,WaveNet的得分超過了真實人類語音。

喜馬拉雅語音技術(shù)團隊也已經(jīng)研發(fā)出自己的聲碼器“PhaseGAN”,這種基于生成對抗網(wǎng)絡(luò)的聲碼器甚至有著比WaveNet 更高的生產(chǎn)效率。

587bdc810f534773b0411cc83e6f293c?from=pc

喜馬拉雅TTS技術(shù)的核心,就在于如何讓機器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機器聲音中注入人性。拿有聲小說這個場景來說,用TTS音色演繹有聲小說需要學(xué)習(xí)小說中的抑揚頓挫、情感表達、上下文關(guān)系,區(qū)分旁白和對白等,將作品像真人一般呈現(xiàn)出來很困難。

而喜馬拉雅的TTS模型系統(tǒng)有著獨特的基因優(yōu)勢:

1.內(nèi)容數(shù)據(jù)豐富,區(qū)別于一線廠商的數(shù)據(jù)來源,喜馬拉雅在音頻賽道多年耕耘,已積累海量的內(nèi)容,包含大量的有聲書內(nèi)容與眾多的主播,基于這些龐大的語音素材庫,喜馬拉雅有強勁的模型迭代語料和更大的發(fā)揮空間。

2.數(shù)據(jù)是模型迭代的燃料基礎(chǔ),在此之上,喜馬拉雅也有厚重的研發(fā)實力。在語音合成、語音識別、智能音效、語音編解碼、語音信號處理和虛擬主播等技術(shù)上,喜馬拉雅都進行了深度研發(fā),自研的TTS前端文本處理分析模塊,可高精度、全自動地對文本進行多音字識別、韻律預(yù)測和風(fēng)格分類,可以演繹不同情緒文字,還能自動區(qū)分旁白、對白,并支持英文,豐富了TTS能表達的情感和韻律。

3.專利效能,現(xiàn)下喜馬拉雅已申請了三項TTS語音合成相關(guān)專利,一是在沒有任何英文原始數(shù)據(jù)的TTS聲音就能夠?qū)崿F(xiàn)說英文的技術(shù)框架,讓不會說英文的人也能流利地講英文。另外,喜馬拉雅還采用并行解碼器,生成語音合成序列,改進了語音合成后端模型的結(jié)構(gòu)和效率。

我們可以發(fā)現(xiàn)TTS技術(shù)的獨特優(yōu)勢可以豐富內(nèi)容的生產(chǎn)迭代,不僅將提高內(nèi)容生產(chǎn)效率,也讓更多不同內(nèi)容的生產(chǎn)成為可能。在喜馬拉雅當(dāng)下主要的PGC、UGC、PUGC三大內(nèi)容生產(chǎn)模式之外,AI語音技術(shù)的更新迭代讓第四種新內(nèi)容生產(chǎn)模式——AIGC成為可能,并展現(xiàn)出更大的想象空間。

喜馬拉雅的內(nèi)容生態(tài)經(jīng)過多年的積累、更新,內(nèi)容精良并且IP豐富。豐富的IP與技術(shù)的結(jié)合將可能碰撞出更加多元的火花,讓聽眾聽到以往所難以甚至不可能聽到的內(nèi)容。把腦洞開得大一些,在AI語音的賦能下,未來我們是否可能聽到各種內(nèi)容IP和不同聲音IP的組合?比如,孫儷“聲音”演播的《甄嬛傳》,孫紅雷“聲音”演播的《掃黑風(fēng)暴》,甚至,張藝興版的評書,易烊千璽版的童話故事等內(nèi)容。這些逼真自然的聲音和不同內(nèi)容相結(jié)合,在各類題材和頻道中出現(xiàn),將會給聽眾帶來很多驚喜。只有你想不到,沒有AI做不到。

技術(shù)與內(nèi)容的雙向賦能如同兩個嚙合完美的齒輪一般,驅(qū)動著喜馬拉雅內(nèi)容和產(chǎn)品的更新迭代。從數(shù)據(jù)上來看,用戶用腳投票,喜馬拉雅的月活跑在了行業(yè)前列。據(jù)喜馬拉雅招股書內(nèi)容顯示,截至上半年,移動端總收聽時長和在線音頻總收入來看,喜馬拉雅是中國最大在線音頻平臺,平均MAU達2.62億,其中包括1.1億移動端用戶和1.51億的物聯(lián)網(wǎng)及其他開放平臺的用戶。移動端用戶共花費8478億分鐘收聽喜馬拉雅音頻內(nèi)容,占中國在線音頻總收聽時長的70.9%。

在雙飛輪驅(qū)動的模式下,喜馬拉雅內(nèi)容和技術(shù)都在向前向深飛馳,給我們用戶帶來了更加豐富的內(nèi)容與體驗。剖析音頻行業(yè)這個并不為大眾熟知的賽道,可以透視到是什么決定了機器如何說話,決定了用戶耳朵的體驗與舒適度,也可以看到頭部的企業(yè)帶來了哪些經(jīng)驗,如何撬開智能語音的富礦。

“聲”寫未來

給大家一個數(shù)據(jù)感受下音頻市場的增長勢態(tài)。據(jù)悉,2020年中國在線音頻用戶數(shù)量已經(jīng)有6.4億人,其中超六成用戶表示曾經(jīng)購買過在線音頻服務(wù),預(yù)計2022年將達到6.9億人。沒想到吧,大家的付費意愿竟然這么強勢。平時勤儉節(jié)約的大家,在豐富精神世界方面,卻舍得愿意為大腦和心靈投資。

在音頻市場的快速增長下,圍繞“耳朵經(jīng)濟”的競爭日趨激烈,除喜馬拉雅、荔枝、蜻蜓FM等老牌平臺之外,騰訊、字節(jié)跳動等互聯(lián)網(wǎng)巨頭以及中央廣播電視總臺這樣的“國家隊”也紛紛進入這一賽道。各大平臺內(nèi)容類型的豐裕程度與是否具有差異化的優(yōu)質(zhì)內(nèi)容是吸引用戶以及撬動用戶付費的關(guān)鍵。

c7344389958c4ebeb0b2fc09d59d9ae2?from=pc

可以預(yù)見的是,在語音技術(shù)加成下,TTS技術(shù)制作的高效高質(zhì)音頻內(nèi)容會進一步賦能優(yōu)質(zhì)內(nèi)容的生產(chǎn),喜馬拉雅的內(nèi)容生態(tài)“PGC、UGC、PUGC”也將因為新成員AIGC的加入,在內(nèi)容創(chuàng)造方面,帶給用戶更多的聽覺盛宴。

喜馬拉雅的AI技術(shù)與內(nèi)容互相磁吸,螺旋纏繞不斷向前向深發(fā)展, AI技術(shù)為喜馬拉雅的內(nèi)容生態(tài)加碼,而內(nèi)容反哺技術(shù)不斷精進。技術(shù)與內(nèi)容的全面融合也撬開了未來的智能語音合成市場富礦:

1.對傳統(tǒng)文化的傳承,豐富和傳承評書這類非物質(zhì)文化遺產(chǎn),影響越來越多的傳統(tǒng)文化愛好者和青年演員去參與其中,創(chuàng)造更豐富的文化遺產(chǎn)。

2.對平臺的創(chuàng)作者來說,提升效率和內(nèi)容的質(zhì)量,讓創(chuàng)作者不再陷入音頻制作的重復(fù)性工作中,在多種內(nèi)容的制作方面TTS都可以賦能創(chuàng)作者的轉(zhuǎn)型升級。

3.AI技術(shù)及大數(shù)據(jù)分析能力讓內(nèi)容創(chuàng)作、分發(fā)和運營更加精準(zhǔn)化,隨著音頻內(nèi)容逐漸規(guī)模化,以及技術(shù)的迭代更新,AI對于內(nèi)容的全生命流程參與程度也越來越高,從而讓音頻內(nèi)容呈現(xiàn)更豐富更智能化的趨勢。

移動互聯(lián)網(wǎng)的快速發(fā)展下,有聲讀物成為我們隨身攜帶的“避難所”。在這些聲音里面,我們療愈自己,經(jīng)歷他人的跌宕生活,感受故事中的喜怒哀樂和人生百態(tài)。無論是內(nèi)容的量與質(zhì),還是技術(shù)的深度研發(fā),喜馬拉雅牽引著行業(yè)不斷進步,激發(fā)更多的廠商去深耕音頻行業(yè),迭代創(chuàng)新能力。而這也意味著,我們這些喜愛有聲讀物的用戶會擁有更豐富的眼界與精神世界。

聲音不僅僅只是一個簡單的溝通工具,里面包含了豐富的知識智慧、故事情感,它讓流淌的時間更有意義,讓我們的精神生活更加豐盛。而技術(shù)正不斷豐富著聲音的世界,為我們的耳朵帶給我們越來越多元、豐富的體驗。

fqj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 音頻
    +關(guān)注

    關(guān)注

    30

    文章

    3042

    瀏覽量

    83439
  • ai技術(shù)
    +關(guān)注

    關(guān)注

    1

    文章

    1308

    瀏覽量

    25155
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI算力新基建背后的中國芯力量——微愛芯服務(wù)器芯片國產(chǎn)化替代全景解讀

    人工智能(AI技術(shù)正以顛覆性力量重塑全球產(chǎn)業(yè)圖景,從深度學(xué)習(xí)的復(fù)雜模型訓(xùn)練到生成AI的實時推理,其背后是海量數(shù)據(jù)與指數(shù)級增長的算力需求。
    的頭像 發(fā)表于 06-20 13:55 ?629次閱讀
    <b class='flag-5'>AI</b>算力新基建<b class='flag-5'>背后</b>的中國芯力量——<b class='flag-5'>中</b>微愛芯服務(wù)器芯片國產(chǎn)化替代全景解讀

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+ 入門篇學(xué)習(xí)

    很高興又有機會學(xué)習(xí)ai技術(shù),這次試讀的是「零基礎(chǔ)開發(fā)AI Agent」,作者葉濤、管鍇、張心雨。 大模型的普及是近三年來的一件大事,萬物皆可大模型已成為趨勢。作為大模型開發(fā)應(yīng)用重要組
    發(fā)表于 05-02 09:26

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+初品Agent

    期待的《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能體》終于寄到了,該書由葉濤、 管鍇、張心雨完成,并由電子工業(yè)出版社出版發(fā)行。 全書分為三個部分,即入門篇、工具篇及實踐篇。由此可見這是
    發(fā)表于 04-22 11:51

    HZHY-AI100G-技術(shù)規(guī)格

    電子發(fā)燒友網(wǎng)站提供《HZHY-AI100G-技術(shù)規(guī)格頁.pdf》資料免費下載
    發(fā)表于 04-17 16:59 ?1次下載

    Banana Pi 發(fā)布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入開發(fā)

    助力 AI、智能制造和物聯(lián)網(wǎng)行業(yè)的發(fā)展。未來,Banana Pi 將繼續(xù)深化與Renesas的技術(shù)合作,推動更多高性能嵌入解決方案的落地。 ” BPI-AI2N開發(fā)板賦能多場景應(yīng)用,
    發(fā)表于 03-19 17:54

    AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成代理

    行適應(yīng)性學(xué)習(xí)。生成代理的技術(shù)實現(xiàn)為AI系統(tǒng)帶來了新的發(fā)展方向。項目中的記憶架構(gòu)設(shè)計特別值得關(guān)注,它不僅解決了傳統(tǒng)AI系統(tǒng)
    發(fā)表于 02-25 21:59

    行業(yè)集結(jié):共同定制 RK3566 集成 AI 眼鏡的前沿 AR 方案

    技術(shù)革新浪潮席卷全球的當(dāng)下,一款智能視覺終端設(shè)備 —— 以 AI 眼鏡為典型代表,正以革命性姿態(tài)打破物理與數(shù)字世界的藩籬,在虛實交融的界面搭建起多維度的認知通道。 而深圳市新創(chuàng)云智能科技有限公司
    發(fā)表于 02-20 18:44

    AI技術(shù)與PLC編程融合

    如何將AI技術(shù)融入PLC編程軟件
    發(fā)表于 02-14 15:55

    記憶示波器的原理和應(yīng)用

    和處理技術(shù),能夠?qū)崿F(xiàn)對被測信號的精確測量和分析。在實際應(yīng)用,用戶可以根據(jù)具體需求選擇合適的記憶示波器型號和功能。
    發(fā)表于 01-06 15:50

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 開發(fā)了一個全新的生成 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?814次閱讀

    生成AI手機如何借力MediaTek天璣平臺引領(lǐng)智能新紀(jì)元

    能力和智能的生成AI功能,為用戶帶來了更為個性化、高效的使用體驗。那么,生產(chǎn)AI手機究竟是什么呢?它的背后又有哪些
    的頭像 發(fā)表于 11-08 09:53 ?846次閱讀

    生成AI工具作用

    生成AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數(shù)據(jù)的人工智能技術(shù)。在此,petacloud.ai小編為您整理生成
    的頭像 發(fā)表于 10-28 11:19 ?748次閱讀

    ChatGPT背后AI背景、技術(shù)門道和商業(yè)應(yīng)用

    作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號)。 自去年11月30日ChatGPT問世以來,迅速爆火出圈。 起初我依然以為這是和當(dāng)年Transformer, Bert一樣的“熱點”模型
    的頭像 發(fā)表于 10-18 15:42 ?4079次閱讀
    ChatGPT<b class='flag-5'>背后</b>的<b class='flag-5'>AI</b>背景、<b class='flag-5'>技術(shù)</b>門道和商業(yè)應(yīng)用

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    for Science的技術(shù)支撐”的學(xué)習(xí)心得,可以從以下幾個方面進行歸納和總結(jié): 1. 技術(shù)基礎(chǔ)的深入理解 在閱讀第二章的過程,我對于AI for Science所需的
    發(fā)表于 10-14 09:16

    應(yīng)力記憶技術(shù)介紹

    應(yīng)力記憶技術(shù)(Stress Memorization Technique, SMT),是一種利用覆蓋層Si3N4軸張應(yīng)力提高90nm 及以下工藝制程 NMOS速度的應(yīng)變硅
    的頭像 發(fā)表于 07-29 10:44 ?3015次閱讀
    應(yīng)力<b class='flag-5'>記憶</b><b class='flag-5'>技術(shù)</b>介紹