由中國人工智能學會主辦,廣州易間網絡科技有限公司承辦的2018第八屆中國智能產業高峰論壇11 月17-18日在成都完美收官,論壇在兩天的會議里帶來了多場精彩報告。
此次小編為大家整理的是來自上海樂言信息科技有限公司CTO王昊奮主題為《智能問答在企業計算中的機遇與挑戰》的精彩演講。
王昊奮
上海樂言信息科技有限公司CTO
以下內容根據速記進行整理
經過王昊奮本人校對
企業計算是一個新名詞,它有四項優勢:第一,降低成本;第二,提高效率;第三,增加營收;第四,保障安全。
從典型的應用來說,首先是市場,企業計算在市場方面能增加潛在營收。市場比較關心的,一方面是受眾和渠道的獲取,即在客戶留存和增加黏度這些方面如何提升;另一方面是內容的優化,即如何刺激大家沖動消費,真正提升客單價。常見的如信息流中的頭條或者短視頻網站,它們會結合用戶本身足跡的數據,推薦一些熱門的或者用戶感興趣的內容,這就是“猜你想”消費。
另一個應用是客戶服務,傳統方式的人工客服是一個勞動密集型+知識密集型的工作,人工客服流動性非常大,客戶滿意度不高。舉個例子,“雙十一”大家會問各種各樣的問題,其中很大一部分是機械重復的,還有很多沒有經過充分培訓很難給出準確解答。現在出現了越來越多的在線客服平臺,包括釘釘、旺旺、微信小程序等,傳統服務模式受到沖擊,新型服務向自助或者在線式轉型,企業計算在客服領域能降低成本、提高效率。
再就是風險管控方面的應用,主要包括風險回避和損失控制等;也涉及一些反欺詐的識別,比如信用評級和評估,如芝麻信用就是作為互聯網的指針,衡量用戶信用情況的應用。
企業計算應用廣泛,市場潛力巨大。對比中國2B市場和美國2B市場:占比方面,美國2B公司密度和營收情況接近40%,而中國僅有10%;公司方面,2C巨頭美國有FAANG,中國有BAT,2B巨頭美國有估值和市值百億美金以上的IBM、MICROSOFT,但中國沒有。2B是一個巨大的市場,這其中既有很大的機遇,也面臨不小的挑戰。
我們覺得有很多事情可以去做,搭建了一套智能咨詢服務平臺。我們不把它稱之為問答平臺,問答是偏技術的說法,業務人員不懂什么叫問答,我們叫做智能咨詢平臺,咨詢是服務層面的。這個平臺面向外部用戶和內部用戶,是一個2B結合2C的模式。通過賦能B端用戶,提高C端服務質量。
面向外部用戶,比如這個東西賣給誰?目標用戶是誰?面向內部用戶,比如,銷售人員需要關心市場動態和發展趨勢,業務人員需要知識采編審閱用于內部培訓和交流,運營人員需要收集反饋和優化操作,我們都可以提供相應的輔助。為了實現這樣的2B結合2C的模式,需要建立相應的知識庫,主要從用戶端、行業理解、企業內部業務系統三個方面對接輸入,而后進行知識的獲取,以及動態的跟蹤和監控,這個過程中內部數據和外部數據要綜合使用。
我們把這個平臺的技術概括成兩個引擎,第一,知識學習引擎;第二,語義理解的引擎。這其中人機協同也非常重要,2B行業的準確率要求接近100%,純靠機器是做不到的,需要讓人能更有效地參與,更好地貢獻知識。阿里提出AI訓練師,他與我們普通意義上的標注人員又有什么區別?這需要好好思考。
我們在企業計算的切入點是智能咨詢,希望做的本質的東西是智能問答。智能問答有很多范式,2011、2012年出現了很多開元的知識庫和吸引眼球的嘗試,現階段任何一項技術,都有其天花板及適用性,在一個技術不能打遍全場的情況下,需要有多引擎的問答,下面會具體講解IRQA、KBQA和MRCQA的問題。我們會有三種類型數據,第一,文本數據,包括很多政策、法規的數據;第二,問答對數據,這類數據是相對容易獲取的;第三,知識圖譜數據,這類數據比較結構化。
問題生成本身非常零散,不是通過問答文本表述出來的,可以通過一定方式去生成所對應的問題,因為它的答案相對固定。另外,在真正使用智能問答時,需要綜合考慮數據來源、數據規模和構建成本等方面。
從技術形態來看,基于知識圖譜的問答就是KBQA,其中既包括傳統的靜態知識圖譜,也包括各種各樣事理圖譜,剩下就是IRQA的內容,FAQ的部分是包含在IRQA里的。還有一些文本更適合MRC即機器閱讀理解的方式。我們希望做到精確回答垂直領域的問題,但是這需要在本身的準確率、覆蓋率,以及用戶體驗等很多方面做綜合考慮,所以數據的來源,或者知識本身的形態會多種多樣。我們希望更加友好的、直觀可以判斷的技術能夠更好嵌入,來滿足多引擎的需求。
以基金行業為例。IRQA的來源主要是業務人員積累的FAQ。例如,“申購基金什么時候確認呢”,這個的標準問答是“基金申購何時能夠確認”。KBQA,比如“你們公司有幾種貨幣型基金”,需要對用戶的查詢進行語義解析,并在知識圖譜中查詢推理得到答案。MRC,比如“開放式基金價格由什么因素決定”。我們做的MRC與現在流行的閱讀理解比賽相比的區別是需要更往前一步,首先要知道用戶的問題對應的是哪個或哪些文件;然后再進行文檔檢索、段落檢索;最后是閱讀匹配。
各種問答形態和技術不是孤立的,多引擎的問答會進行融合。IRQA擅長高頻問題,數據要求是FAQ數據中存在和用戶問題配對的FAQ,它的答案是靜態存儲的。KBQA需要非常正確的解析用戶本身的問題,需要知識庫里包含這些知識點。這些知識點不能是孤立的,需要有相應關聯。MRC和IRQA的區別不是很大,它的好處在于減少了結構化的成本,而且生成的答案是動態的、粒度更加精細。
問答引擎是針對一問一答,要最終實現多輪對話,還需要相應的對話引擎。對話引擎主要涉及對話策略跟蹤、對話策略學習等方面。IRQA會分成在線部分和離線部分。在線部分會轉換多階段的問題,第一階段會使用搜索引擎做檢索,而后是精排和篩查。很多時候僅僅得到一個排名結果是不夠的,所以我們額外增加了一個部分篩查。離線部分需要對FAQ數據建立粗排索引,通過挖掘領域詞和句式,運用生成方式,結合人工標注,如加噪等方式建立精排和篩查模型。第一步粗排模型非常重要,略過粗排這個步驟直接進行精排,結果往往不盡如人意。我們希望在更小的侯選空間里進行建模,這可以有很多的手段。一種手段可以是完全利用深度學習的方法去做,但現在更多是用一些整合的方式。基于IRQA有幾種不同的模型,一種是面向表示的建模,這種端到端的建模比較簡單,它的問題主要在于對數據的要求比較高,不適合冷啟動,可解釋性和可干預性也比較差。我們的創新在于從可解釋的角度做特征工程,知識特征包括領域詞之間上下位關系,還有對應的句式的內容,同時也會有通用領域訓練、關系的遷移刻畫等。
KBQA也是分成在線部分和離線部分。在線部分主要是問題的理解,問題理解之后有語義解析和執行回復生成。語義解析可以基于模板,通過語義理解可以轉換成所對應的一些標注內容,將數據庫存儲的信息做轉化和加固。除了人工撰寫模板,也可以通過機器學習生成模板,然后人工進行審核。我們需要設計規則來生成標準問法,這是拓撲結構上的問題。問題匹配不到,或者匹配到的回答過于抽象,結果都是不能執行,都會影響召回率。亂回答會產生很多噪聲,機器基于侯選級去做相應的計算,在這個過程中會用到單指令多數據的并行優化。
MRC比較簡單。MRC是IRQA在最后一步精排和篩查里用了閱讀理解模型,前面很多步驟和IRQA一樣,只是具體匹配到的內容存在差別。本身文檔或者段落的匹配,更像傳統IR的任務,后面比較復雜的精細化模型都是通過表示層、輸出層來做。MRC可以在反饋前對答案進行一定精簡,給用戶一個更智能更友好的體驗。
前面提到了很多次語義解析,語言理解包括實體識別和鏈接、答案類型判斷等,這里一個是意圖理解問題,一個是雙向序列標注問題。回復生成也會考慮很多內容,它是生成和回答相結合的內容。多輪對話的模式設計中,需要重視多用戶管理和分發的問題。
具體的工程實踐主要是四塊,第一是數據收集;第二是模型更新;第三是上線發布;第四是反饋收集。數據獲取通過技術層的領域詞挖掘、數據標注和審核,針對不同類型的數據服務有不同的任務。模型更新包括領域的適配、索引的更新,以及數據的優化。智能導航包括熱點問題推薦,另外還有一些相關實體問題推薦。反饋收集包括平臺訓練模型更新、日志更新等問題。另外還會有交互設計,其中導航的點擊,以及對答案的采納程度等都需要關注。在此之外,我們還會去做請求負載均衡、數據存取分流、服務質量控制等這些任務。
做智能問答,最希望做到擬人;第二是智能;第三是精準,希望精準度達到99%以上。我們的成效在于幫助企業節約人力,改善結果,提高轉化率。目前在電商客服領域,每天服務300~400萬人次,2018年“雙十一”當天服務了2 366萬人,創造了新的高度。我們希望“引領認知智能,躍升人類知識工作”不僅是一句口號,而是真正地去賦能企業,提升全人類。
-
互聯網
+關注
關注
54文章
11227瀏覽量
105456 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7917
原文標題:CIIS2018演講實錄丨王昊奮:智能問答在企業計算中的機遇與挑戰
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
中星聯華驚艷亮相EDICON China 2025,精彩演講引燃全場

中科昊芯DSP產品及公司信息
商湯絕影王曉剛亮相NVIDIA GTC 2025并發表主題演講
全球驅動芯片市場機遇與挑戰
產業"內卷化"下磁性元件面臨的機遇與挑戰

喜訊 | 志奮領科技榮登「智能傳感器新銳企業TOP50榜單」

智能駕駛的挑戰與機遇
【展會進行時】2024CIOE昊衡科技首日精彩速遞

第二屆大會回顧第24期 | 面向OpenHarmony的軟件工程研究:機遇與挑戰

RISC-V在中國的發展機遇有哪些場景?
王衛斌剖析中興通訊在智能計算領域的戰略愿景與核心布局
HDC2024?心得分享#主題演講學習-加入鴻蒙生態正當時
“從無處不在到無人不用”,大模型推動邊緣計算變革的機遇與挑戰

評論