話音作為聯(lián)結全球80億人口的紐帶,承載著人與人之間最基本、最可靠的溝通需求。在科技發(fā)展日新月異的當下,各行各業(yè)迎來前所未有的革新契機。特別是AI技術的蓬勃興起,推動話音業(yè)務從傳統(tǒng)音視頻向多模態(tài)、交互式通信的形態(tài)轉變,極大地促進了通話產(chǎn)業(yè)的繁榮發(fā)展,開辟了全新的增長點。借助AI技術為新通話賦能,構建智能體通話能力,重塑用戶通話體驗,正是打造智能業(yè)務新入口的黃金時機。
AI給通信產(chǎn)業(yè)帶來的變化
2022年,ChatGPT橫空出世,自此各種大模型相繼亮相,人工智能進入蓬勃發(fā)展階段,并逐步向多模態(tài)、智能體等方向發(fā)展。在通話領域,文本、圖像、語音等多種模態(tài)數(shù)據(jù)處理技術日趨成熟,通信內(nèi)容從傳統(tǒng)音視頻向全媒體、智能化演進。與此同時,IMS DC(數(shù)據(jù)通道)的標準制定工作也在持續(xù)推進。2024年6月,GSMA正式發(fā)布PRD TS.66 IMS Data Channel API Specification,為構建全球統(tǒng)一的新通話應用生態(tài)提供了標準依據(jù);3GPP R18標準正式凍結,為新通話商用的全面提速奠定了標準基礎。隨著DC標準的逐步演進,未來交互式通信將進一步降低對終端的依賴,從而促進運營商基于DC的交互式業(yè)務的落地。人工智能結合AIGC(生成式人工智能)、Agent、LLM(大型語言模型)、MLLM(多模態(tài)大語言模型)等技術,可實時感知用戶意圖,為用戶提供交互式、沉浸式的通話體驗。
“AIGC+語音驅(qū)動數(shù)字人”為用戶提供個性化數(shù)字人形象,人人都能擁有自己的數(shù)字分身。AIGC技術已被廣泛應用于各個領域,在實時通信領域被用于生成個性化數(shù)字人形象。通過圖生圖、圖生視頻、文生圖和文生視頻技術,降低個性化素材創(chuàng)作門檻,人人都可以擁有自己的數(shù)字分身。語音驅(qū)動數(shù)字人技術基于用戶的語音輸入,實時驅(qū)動數(shù)字人形象生成與語音同步的口型、表情和動作,讓數(shù)字人更具生命力。
“AI Agent+LLM/MLLM”為數(shù)字助理裝上“超級大腦”,為用戶提供更加沉浸、智能、高效的體驗。LLM/MLLM基于海量數(shù)據(jù)進行訓練,具有數(shù)十億甚至數(shù)千億的模型參數(shù),具備強大的理解、表達和泛化能力。基于LLM構建的AI Agent已在多個領域展現(xiàn)出巨大潛力,可以更準確地理解用戶意圖、情感以及上下文信息,與用戶進行更自然、流暢的交流。基于MLLM構建的AI Agent不僅能夠處理文本,還能理解和生成圖像、音頻、視頻等多種模態(tài)的數(shù)據(jù),增強數(shù)字助理的理解能力,為用戶提供更豐富的交互體驗。結合RAG(檢索增強生成)和工具使用能力,增強AI Agent的知識獲取與記憶能力,從而實現(xiàn)個性化的用戶數(shù)字助理。
AI賦能新通話,智能體變革通話體驗
通過AI賦能網(wǎng)絡,新通話可實現(xiàn)智能體通信,為用戶提供更加高效便捷的通話體驗。為實現(xiàn)這一目標,需要在已有新通話基礎架構上進行能力增強,引入通話智能面,實現(xiàn)多模態(tài)交互及第三方模型對接。
新通話智能體通信架構如圖1所示。新通話能力平臺基于業(yè)務AS(應用服務器)指示向新通話媒體面發(fā)起音視頻或DC操作,如拉起單向視頻實現(xiàn)網(wǎng)絡側點亮屏幕業(yè)務;同時,進行新通話智能面設備發(fā)現(xiàn),并指示智能面完成語義交互。
新通話智能體通信架構
新通話媒體面可接受來自新通話能力平臺的指示控制,進行媒體流復制、收號、字幕提示、放音等基礎音視頻能力操作,以及字幕流合成、虛擬背景替換、虛擬頭像替換、媒體元素合成等相關媒體處理。同時,新通話媒體面負責將實時媒體流復制給智能面,完成進一步AI語義交互處理,并確保媒體流發(fā)送給終端的實時性不受影響。
新通話智能面可接收新通話媒體面復制的媒體流,提供通話語義智能交互及分發(fā)相關能力。它支持針對用戶的意圖識別、多模態(tài)(音頻、文本、圖片、視頻)語義交互;同時,通話智能體平臺基于用戶意圖進行靈活分發(fā)引流,可分發(fā)至內(nèi)置的垂域語義交互模型或外置的大模型智能體、行業(yè)智能體進行復雜任務閉環(huán)。一方面,智能面可提供內(nèi)置的工具調(diào)用、RAG知識庫、用戶偏好、長短期記憶等輔助能力。另一方面,智能面需構建AI安全能力,如安全圍欄、AI標識、隱私保護等,以更好地應對網(wǎng)絡攻擊和數(shù)據(jù)泄露。
新通話智能體架構具備以下三方面能力。
一是多模態(tài)交互。“AIGC+大模型+算力”驅(qū)動音頻、視頻、文本、圖片等多模態(tài)的語義理解、交互和信息流轉換,讓每一位用戶都能擁有一個數(shù)字人形象,讓每一個數(shù)字形象都可以通過AI實時驅(qū)動,提升用戶的互動體驗。
二是NaaS開放使能。新通話三通道能力基于企業(yè)接入網(wǎng)關,按應用能力區(qū)分IaaS、PaaS、SaaS等方式分層開放標準API,使能開發(fā)者和行業(yè)ISV。新通話被設計為一個開放的業(yè)務使能平臺,南向匯聚音視頻媒體處理、實時數(shù)據(jù)交互等網(wǎng)絡能力;北向?qū)崿F(xiàn)能力的聚合封裝與開放共享,使能各類行業(yè)業(yè)務,調(diào)用聚合的新通話能力層,快速完成業(yè)務創(chuàng)新,繁榮行業(yè)應用生態(tài),打開更廣闊的市場空間。
三是使能外部大模型、工具。基于用戶意圖理解,自動調(diào)用垂域最優(yōu)權威模型、工具,從而提供最佳解決方案,為用戶提供最優(yōu)的通話體驗。例如,當涉及醫(yī)療領域問答時,自動調(diào)用業(yè)界權威醫(yī)療AI模型提供專業(yè)的醫(yī)療對話。
在未來,每個人都將擁有一個專屬的通話智能體,用戶可以自定義智能體形象并通過語音實時驅(qū)動進行互動。一方面,智能體具備代答能力,實現(xiàn)防漏接、防騷擾、防欺詐;另一方面,智能體可提供伴聊、陪聊能力,并且可以識別用戶意圖進行跨應用編排,例如外賣訂購、酒店預定等,在通話中閉環(huán)業(yè)務,進一步提升用戶體驗,實現(xiàn)智能體走入千家萬戶、賦能千行百業(yè)。
智能體重塑運營商通話業(yè)務入口
AI引發(fā)的交互方式變革,給整個移動通信產(chǎn)業(yè)帶來了前所未有的發(fā)展機遇。領先運營商已經(jīng)將AI作為發(fā)展戰(zhàn)略,通過傳統(tǒng)通信網(wǎng)絡基礎設施、業(yè)務與AI技術結合,促進AI技術深入千行百業(yè),助力電信運營商科技轉型。
例如,中國移動發(fā)布“AI+”戰(zhàn)略,基于“九天”大模型,打造從基礎設施到核心能力的開放AI服務,以科技創(chuàng)新全面推進產(chǎn)業(yè)數(shù)智化轉型,推動AI深度賦能數(shù)實經(jīng)濟發(fā)展,為新質(zhì)生產(chǎn)力筑牢基礎;韓國電信運營商SKT發(fā)布“AI金字塔戰(zhàn)略”,圍繞AI基礎設施、AI轉型和AI服務三個關鍵領域加速創(chuàng)新,拓展已有數(shù)字化服務能力,加速AI戰(zhàn)略轉型;韓國電信運營商LG U+基于“Growth Leading AX Company”(增長領先型AX公司)戰(zhàn)略,成立“AI Agent特別工作組”,與終端廠商深度合作并發(fā)布AI通話助手“ixi-O”,實現(xiàn)AI代答、紀要、翻譯、“釣魚”警告等能力,增強用戶體驗,加速AX戰(zhàn)略轉型。
話音作為運營商的基礎業(yè)務,擁有龐大的用戶基數(shù),基于AI的通話業(yè)務入口,可作為運營商實現(xiàn)AI戰(zhàn)略落地的有力抓手。據(jù)華為MI數(shù)據(jù)統(tǒng)計,中國有17.5億移動電話用戶,每月平均有200多分鐘通話時長,整體每月通話時長超過四千億分鐘。基于如此龐大的通話流量,如何發(fā)揮其價值?當前企業(yè)客服的APP線上業(yè)務咨詢已經(jīng)非常普遍,但數(shù)據(jù)顯示,企業(yè)客服熱線移動電話客服占比達60%~80%,例如運營商客服熱線占比60%,某移動支付電話客服占比更是達到了80%,電話熱線仍然是企業(yè)客服的主要入口。
由此可見,運營商的通話入口具備成為AI入口的流量優(yōu)勢。同時,運營商具備APP免安裝、終端普惠和實時體驗的天然優(yōu)勢,獨有的公信力和社會責任可提供AI監(jiān)管、隱私看護等方面的安全認證。在OTT、終端廠商、運營商發(fā)力搶占AI入口的當下,運營商基于“原生撥號盤”打造AI入口,有能力做到“三分天下有其一”。
產(chǎn)業(yè)攜手,擁抱AI,合作共贏
AI的飛速發(fā)展將為通信產(chǎn)業(yè)帶來顛覆式變革,從傳統(tǒng)的音視頻通話到多模態(tài)通信、智能體通信、沉浸式通信,AI將進一步改善通話體驗、提升通話效率,以實現(xiàn)科技助老助殘,踐行“科技向善”理念。在AI加持下,新通話將進一步打開話音產(chǎn)業(yè)發(fā)展空間,這需要產(chǎn)業(yè)上下游伙伴(包括終端和芯片廠商、標準組織、三方行業(yè)、設備商、運營商等)攜手共建,打通發(fā)展斷點,共建通話新生態(tài),推進新通話產(chǎn)業(yè)繁榮發(fā)展。
-
通信
+關注
關注
18文章
6172瀏覽量
137364 -
AI
+關注
關注
87文章
34172瀏覽量
275330
原文標題:AI賦能新通話 構筑智能業(yè)務入口
文章出處:【微信號:hwCoreNetwork,微信公眾號:華為云核心網(wǎng)】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
賽美特“AI智造”生態(tài)體系亮相,四大方向賦能智能制造
RAKsmart服務器如何賦能AI開發(fā)與部署
中國銀河證券攜手中科曙光以AI技術全面賦能業(yè)務發(fā)展
美格智能攜手高通啟動2025邊緣智能創(chuàng)新應用大賽,賦能端側AI革命

中國移動和華為實現(xiàn)DeepSeek和新通話首呼落地
華為表示體驗經(jīng)營成為移動AI時代的必然趨勢
華為AI Calling解決方案打造AI時代業(yè)務入口
華為將在MWC 2025發(fā)布新通話創(chuàng)新成果
HarmonyOS 應用開發(fā)賦能套件:鴻蒙原生應用開發(fā)的 “神助攻”
AI賦能邊緣網(wǎng)關:開啟智能時代的新藍海
AI大模型賦能!移遠通信打造具有“超能力”的AI智能玩具解決方案

華為云徐峰:AI 賦能應用現(xiàn)代化,加速軟件生產(chǎn)力躍升

華為AI技術助力南非PRASA構筑智能鐵路周界防護
一文了解5G新通話技術演進與業(yè)務模型

評論