作者:黃楠
向量數(shù)據(jù)庫可實現(xiàn) 80% 非結構化數(shù)據(jù)能力的覆蓋。
在保險行業(yè)這個海量數(shù)據(jù)的“聚居地”上,數(shù)據(jù)庫應用已久。
近年來,保司數(shù)據(jù)化轉型提速,各類文本、音視頻的憑證票證核保及跑批需求不斷增加,許多機構便將數(shù)據(jù)庫引入至業(yè)務流程中。
但是,隨著數(shù)據(jù)庫深入保司業(yè)務,一個真實的情況是:傳統(tǒng)數(shù)據(jù)庫只能處理機器容易處理的、如字符串等結構化數(shù)據(jù),以點查和范圍查找的形式進行匹配,但面對許多長尾場景下格式繁復、無法統(tǒng)一處理的非結構化數(shù)據(jù)時,則無能為力,只能繼續(xù)投入大量人力,進行手動的數(shù)據(jù)錄入和人工檢驗。
一位從業(yè)人員告訴 AI 科技評論,目前在保險公司內人為處理的事情居多,其業(yè)務內容中人為比例可達到 90% ,AI 只支持 10% 的信息存取、數(shù)據(jù)流轉。
受技術瓶頸的掣肘,沒有一套通用的方法論得以解決傳統(tǒng)數(shù)據(jù)庫的存儲、檢索和分析難題。數(shù)據(jù)局限的桎梏不僅發(fā)生在保險公司里,各行各業(yè)均受其困擾已久。直至大模型+向量數(shù)據(jù)庫的出現(xiàn)。
數(shù)月來,大模型風口正盛,向量數(shù)據(jù)庫可以為大模型解決數(shù)據(jù)更新、知識圖譜構建、消除幻覺等問題,使其在短短時間內,一躍成為最受關注的領域之一。向量數(shù)據(jù)庫類產品數(shù)量激增,當中既有創(chuàng)業(yè)公司,大廠更是戰(zhàn)局中主要的競爭對手。
今年 7 月,騰訊云發(fā)布了 AI 原生向量數(shù)據(jù)庫 Tencent Cloud VectorDB,該產品在 11 月 1 日正式全量開放公測,同時在性能上也實現(xiàn)了大幅提升。
向量數(shù)據(jù)庫之于大模型,是實現(xiàn)降本增效重要的基礎設施。數(shù)據(jù)顯示,企業(yè)在使用向量數(shù)據(jù)庫后,可實現(xiàn) 80% 非結構化數(shù)據(jù)能力的覆蓋。
大模型的角斗場上,一個行業(yè)共識是,誰能夠更好地利用數(shù)據(jù),把數(shù)據(jù)沉淀到工程化中里,更快讓數(shù)據(jù)接入到大模型和整個 AI 體系之中,誰就有可能走在最前列。而選擇一個對的服務伙伴,至關重要。
1大模型的“數(shù)據(jù)”局限
眾所周知,數(shù)據(jù)在 MaaS 時代很重要,市場的火熱映射到具體的企業(yè)行為上,表現(xiàn)為大批量垂直模型的推出、數(shù)據(jù)庫企業(yè)融資數(shù)量增加、數(shù)據(jù)庫使用量陡然增長等。
但在企業(yè)落地的過程中,大模型所面臨的難題依舊沒有解決。
經過近半年的觀察,數(shù)據(jù)局限對企業(yè)做大模型帶來的影響,可歸結為以下三點:
首先是對數(shù)據(jù)的管理和運維。如上所述,隨著文本、圖片、視頻等多模態(tài)的、非結構化數(shù)據(jù)的使用需求增加,許多企業(yè)所產出的非結構化數(shù)據(jù)量級可高達 80%,如果選擇以預訓練的方式將數(shù)據(jù)“喂”給模型,與之而來的則是難以承載的高成本。
身為明星創(chuàng)業(yè)公司的百川智能,在模型訓練和調試時就曾遇見過類似問題。
未使用向量數(shù)據(jù)庫之前,百川智能一直使用的是開源方案,比如以向量索引為內核,相當于在訓練時給模型準備一個 library 級別或算法級別的知識庫,這些知識庫使用簡單,采用分布式系統(tǒng)的方式,具有擴展性。但其缺點也很直觀,隨著數(shù)量增長到一定規(guī)模時,這種分布式存儲的方式會很快遇到瓶頸。
不僅如此,由于市面上缺少成熟的管理工具,數(shù)據(jù)格式該怎么組織、數(shù)據(jù)的更新頻率如何安排、新舊數(shù)據(jù)的更迭等等,百川智能都需要額外交給工程師去做,大大增加了人員成本。
第二點,雖然大模型支持的 token 數(shù)量在持續(xù)增加,具備了“短暫記憶”的能力,但“一本正經地胡說八道”的問題仍無法解決,當中不乏有敏感內容的出現(xiàn),稍不注意,便可能帶來嚴重的影響。因此,支撐模型訓練的數(shù)據(jù)不僅要數(shù)量多,質量也必須足夠高。
比如大模型和教育行業(yè)的結合,雖然模型可以完成一定的推理和解題,但進入實際應用中,好未來就發(fā)現(xiàn)了,大模型在面對數(shù)學問題時,其表現(xiàn)仍然不夠好。要想解決這個問題,必須基于龐大的、高質量的數(shù)據(jù)庫,像教程題庫、數(shù)學錯題集等,在此之上嘗試啟發(fā)式內容生成。
第三,如何保障企業(yè)數(shù)據(jù)的安全性,數(shù)據(jù)在空間和時間上會有很大的限制。
一方面,企業(yè)很難把自己具有核心競爭力的數(shù)據(jù)放到大模型中去訓練;有行業(yè)人士就曾向 AI 科技評論指出,許多應用型公司并不愿意將自身微調的模型貢獻到公有版本里、與其他人分享,而是傾向于訓練自己的大模型,而后進行本地私有化部署。這個過程中,企業(yè)要解決的主要難點是,如何將私有化業(yè)務數(shù)據(jù)跟大模型結合。
銷售易是很早就在智能 CRM 業(yè)務中引入了大模型,例如提供相似客戶推薦、做問答機器人等服務。但客戶在使用過程時卻發(fā)現(xiàn),大模型所推薦的客戶類型經常會出現(xiàn)匹配度不高的情況,向它提問與企業(yè)相關的的系統(tǒng)功能問題時,大模型也回答不出來。
另一方面,企業(yè)的業(yè)務數(shù)據(jù)變化速度快,且實時性強,因此私有化部署后的大模型、在數(shù)據(jù)層上也很難做到秒、天級別的更新。
當上述諸多問題橫亙于企業(yè)和大模型落地之間,學術界和工業(yè)界也提出了兩種解決方案。
一是采用 Fine-tuning 的方式迭代演進,讓大模型學到更多的知識;二是通過 Vector search 的方法,把最新的私域知識存在向量數(shù)據(jù)庫中,需要時在向量數(shù)據(jù)庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準的答案。
但是從成本方面來看,行業(yè)人士指出,向量數(shù)據(jù)庫的成本僅為 Fine-tuning 的千分之一。向量數(shù)據(jù)庫通過把數(shù)據(jù)向量化,進行存儲和查詢可以有效解決大模型預訓練成本高、沒有“長期記憶”、幻覺、知識更新不及時等問題。
因此,憑借其優(yōu)勢,向量數(shù)據(jù)庫也被視為了加速大模型落地行業(yè)場景的關鍵突破口。
2向量數(shù)據(jù)庫的大模型之路
自大模型火爆以來,原已沉寂多年的向量數(shù)據(jù)庫再次受到企業(yè)和資本市場的高度關注,據(jù)公開數(shù)據(jù)顯示,2023 年 4 月以來,以向量數(shù)據(jù)庫為代表的 AI 投資領域呈增長趨勢,包括 Pinecone、Chroma 和 Weviate 等多家向量數(shù)據(jù)庫初創(chuàng)企業(yè)均拿到了上億級美元融資。
為了最大程度上幫助企業(yè)應對數(shù)據(jù)局限問題,更好地將大模型能力釋放到行業(yè)和產業(yè)中,騰訊云走在國內云廠商前列,于今年 7 月便正式上線了向量數(shù)據(jù)庫 Tencent Cloud VectorDB,并在 11 月 1 日全量開放公測。
這也體現(xiàn)了騰訊云在大模型時代下的視角:大模型技術的創(chuàng)新只是第一步,如向量數(shù)據(jù)庫這類數(shù)據(jù)存儲、檢索、分析等基礎設施的搭建也同等重要,騰訊不僅提供直接的大模型服務,更重要的是向企業(yè)遞“鏟子”、提供有效趁手的平臺工具。
市面上不缺乏好用的向量數(shù)據(jù)庫,那么,騰訊云相比于其他廠商的產品有什么不一樣的地方呢?
首先在架構上,騰訊云就采用了 AI 原生的開發(fā)架構,從接入層、計算層、存儲層提供給全面 AI 化的解決方案,形成一套完整的端到端、一站式服務技術棧,讓不同階段、不同需求的用戶,都能在騰訊云向量數(shù)據(jù)庫里找到對應可用的 AI 能力。
騰訊云全面 AI 化解決方案
比如在接入層上,騰訊云向量數(shù)據(jù)庫支持自然語言文本的數(shù)據(jù),采用“標量+向量”的查詢方式,可支持全內存索引;計算層,AI 原生的開發(fā)范式能實現(xiàn)全量數(shù)據(jù) AI 計算,一站解決企業(yè)搭建私域知識庫時數(shù)據(jù)切分等難題。
這些能力不僅可以讓交互更自然,同時在計算結果、效率、成本等方面,也能得到進一步的優(yōu)化。
在百川智能的工程師們看來,向量數(shù)據(jù)庫帶來最直觀的改變是,數(shù)據(jù)分片、導入導出等工作效率得到了極大的提升。面對每天約 2 億的數(shù)據(jù)量,以往使用的單線程序處理速度有限,但加入了向量數(shù)據(jù)庫后,加上百川智能所使用的RAG 框架,可以有效解決私有數(shù)據(jù)、實時數(shù)據(jù),同時在數(shù)據(jù)齊備的情況下,還能消除部分由數(shù)據(jù)帶來的幻覺問題。
數(shù)據(jù)顯示,將騰訊云向量數(shù)據(jù)庫用于大模型預訓練數(shù)據(jù)的分類、去重和清洗,相比傳統(tǒng)方式可以實現(xiàn) 10 倍效率的提升,如果將向量數(shù)據(jù)庫作為外部知識庫用于模型推理,則可以將成本降低 2 - 4 個數(shù)量級。
以前企業(yè)將現(xiàn)有數(shù)據(jù)接入一個大模型需要花 1 個月左右時間,使用騰訊云向量數(shù)據(jù)庫后,最短 3 天時間即可完成,極大降低了企業(yè)的接入成本。
第二是集成了 Embedding 功能,企業(yè)用戶無需關注向量生成過程,使用起來更簡單。
騰訊云向量數(shù)據(jù)庫 AI 套件
與騰訊云合作以前,好未來曾使用過一些小型的基于內存的向量數(shù)據(jù)庫,雖然也具備了語義結合的能力,但無論是產品的性能還是維護等方面,使用效果不佳。
而在騰訊云向量數(shù)據(jù)庫上,通過語音召回加語義 Embedding 功能,這種采用語義結合進行檢索的方式,讓模型能力得到了提升,召回內容更多、內容更精準、召回速度更快等等,從而提供更好的用戶體驗。
例如同樣是搜索題庫中的“第一單元”,文本召回必須準確地提供“第一單元”這一提示詞,但借助向量數(shù)據(jù)庫的相似性檢索,語義檢索就可以將“Unit1”等近似語義的內容也進行召回。
第三,自研分布式向量數(shù)據(jù)庫核心引擎,服務更穩(wěn)定可靠、高可用。
AI 科技評論了解到,騰訊云向量數(shù)據(jù)庫所用的核心引擎,是其 2019 年于內部上線使用的 Olama,經過 4 年的探索和迭代,Olama 實現(xiàn)了大規(guī)模升級,包括集成了騰訊在內的業(yè)界優(yōu)秀的向量算法、降低 Olama 成本、提升穩(wěn)定性等等,從而更好地適配大語言模型應用。
截至今年 7 月份,Olama 已覆蓋騰訊 30 多個業(yè)務、100 多個場景,日均調用量超過 1200 億,調用成功率為 100%,搜索成功率為 99.995%。
可以看到,面對企業(yè)在大模型落地中的普遍難題,騰訊云向量數(shù)據(jù)庫力圖在每個環(huán)節(jié)提供便捷、有效的解決方案,突破數(shù)據(jù)的局限,加速大模型+向量數(shù)據(jù)庫的使用,以解決企業(yè)實實在在的痛點和難題。
3應用是風口
受限于研發(fā)成本和開發(fā)難度,過去十年,全球僅有 1% 開發(fā)者專注于 AI 領域的研發(fā)工作。而到了今天,以大模型為能力基座,一個 AI 應用開發(fā)的難度縮短至只需兩三個工程師、一個周末時間變成完成。
其中,向量數(shù)據(jù)庫也從以搜索、廣告、推薦為主要服務領域,隨著 AI 的大規(guī)模發(fā)展,開始深入千行百業(yè)中去,與 C 端用戶鏈接也更加緊密。
舉一個銷售易與騰訊云的合作案例。
作為一家企業(yè)級 CRM 服務商,每天有數(shù)萬次用戶問答在智能客戶場景中發(fā)生。在以前,傳統(tǒng)的 NLP 客服機器人智能做一問一答,這種基于分詞語法關鍵字的檢索方式,容易出現(xiàn)搜索答案不精準的情況,用戶使用感不佳,慢慢地也失去了提問的積極性。
比如客戶希望在業(yè)務分析中檢索調用出多個數(shù)據(jù)報表,想要在成千上萬個報表中找到指定數(shù)據(jù),對模型的信息抽取能力有很高的需求,直接關系到業(yè)務的分析效率。
但在同騰訊云合作后,銷售易可以先將報表以 Embedding 的形式存入自有向量數(shù)據(jù)庫中,當用戶端發(fā)生自然語言問詢時,這個客服機器人就可以智能化分析問詢者的意圖,并在向量數(shù)據(jù)庫內去檢索相關的知識文檔,從而得出一個更接近于人的思考方式的回答。
這樣的客服機器人不僅可以支持多輪對話,更關鍵的是,它還支持了檢索模糊的相關性,不需要維護大量同義詞、詞典或是相似的問法,類似相關性的語言可以交給大模型+向量數(shù)據(jù)庫來解決。
而在潛在客戶推薦的場景中,騰訊云向量數(shù)據(jù)庫帶來的影響也十分明顯。
過去,銷售易主要是依據(jù)客戶的特征字段,在結構化信息里檢索有相關特征的企業(yè)信息,這種檢索對于內部的銷售人員要求很高,必須準確地檢索近上百個字段,如企業(yè)介紹等描述性內容很難被檢測,久而久之,員工經常會出現(xiàn)關鍵字匹配度不高等問題。
而使用了向量數(shù)據(jù)庫后,基于相關性的特征來檢索是從文本進行描述,當銷售人員想要檢索某個行業(yè)、某種產品或是某種業(yè)務需求的客戶時,可以借助文本進行自然語言模糊的相關性檢索,使用簡單,檢索的結果也更真實、準確,智能化效果明顯,大幅提升了員工從事客戶推薦業(yè)務的難度。
騰訊云超級底座
可以看到,向量數(shù)據(jù)庫之于大模型應用落地、之于 AI 技術發(fā)展的意義已經逐漸顯現(xiàn)。
騰訊云數(shù)據(jù)庫副總經理羅云就曾指出,數(shù)據(jù)、向量數(shù)據(jù)庫、大模型三者怎么能更好地服務全行業(yè)是首要問題,“只有向量數(shù)據(jù)庫變得更 AI 化,數(shù)據(jù)、向量數(shù)據(jù)庫、大模型三者才能形成一個飛輪效應,彼此之間相互拉動,相互促進,這是我們對向量數(shù)據(jù)庫未來發(fā)展的判斷?!?/p>
這也是騰訊云在當下推出向量數(shù)據(jù)庫 Tencent Cloud VectorDB 的原因所在。
數(shù)據(jù)顯示,自 7 月份正式發(fā)布以來,騰訊云向量數(shù)據(jù)庫的日請求量達 1600 億次,服務騰訊集團內部 40 多個業(yè)務,外部客戶數(shù)更多達數(shù)百家,其中就包括了上述提到的百川智能、好未來、銷售易,幫助教育、SaaS、工具、游戲等多行業(yè)客戶快速進行 AI 方向的探索。
大模型進一步推動了對向量數(shù)據(jù)庫的需求。業(yè)界共識是,所有產品應用都值得用 AI 重做一次,在這個背景下,企業(yè)將會越來越重視如何將其跟 AI、大模型的能力結合起來。而騰訊云向量數(shù)據(jù)庫在提出之時,就已經看到了企業(yè)在應用落地中的痛點,用向量數(shù)據(jù)庫在技術“大腦”中構建起一個健康、且旺盛的“海馬體”,為企業(yè)邁進大模型時代提供堅實的基座。
這次 Techo Day 技術開放日將資料和課件都整合成了一份《騰訊云工具指南》,這份資料技術含量很高,可以幫助學習了解向量數(shù)據(jù)庫的技術優(yōu)勢和價值應用。
編輯:黃飛
?
評論