來源:NVIDIA英偉達
數據飛輪是一種反饋循環機制,通過從交互或流程中收集數據,持續優化 AI 模型,進而產生更優的結果和更有價值的數據。
1AI 數據飛輪的工作原理是什么?
AI 數據飛輪的工作原理是通過創造循環機制,幫助 AI 模型整合機構知識與用戶反饋,從而實現持續的改進。當模型生成輸出結果時,數據飛輪會將反饋與新數據收集起來,用于模型的優化與增強。這一流程涉及數據管護與數據質量的提升,以便確保 AI 模型的精度和性能均得到持續改善。
數據飛輪:由數據處理、模型定制、評估、護欄和及部署構成的持續運轉周期,能夠利用企業數據改進 AI 系統
此外,數據飛輪內置 AI 護欄,以保持數據的完整性和可靠性,確保輸出結果準確、合規、安全。這種持續的反饋和增強周期能夠使 AI 模型的效能與日俱增。這一工作流由六大步驟組成:
數據處理:AI 數據飛輪的基礎是企業數據。這類數據形式多樣,包括文本文檔、圖像、視頻、表格和圖表。AI 數據飛輪需要通過對原始數據進行數據處理來提取和優化信息。隨后,原始數據將接受進一步的篩選,去除低質量文檔、個人身份信息 (PII) 與不良、有害數據,生成高質量數據。這樣的數據管護能夠有效提高應用的準確性。
模型定制:借助領域自適應預訓練 (DAPT) 和監督式微調 (SFT) 等大語言模型 (LLM) 技術,您能夠在資源要求較低情況下,快速為模型增添領域特定知識與任務專屬技能。到這一步,模型已對公司的特有詞匯和上下文有了更深的理解。
模型評估:接下來,您可以評估模型性能、驗證答案(輸出)是否符合應用的要求。以迭代的方式執行前三步,能夠確保模型質量得到改進,且結果符合目標應用的要求。
AI 護欄實施:將 AI 護欄添加到定制模型中,可確保應用的部署符合企業對隱私、安全保障和安全的特定要求。
自定義模型部署:在同時部署生成式 AI 和代理式 AI 應用時,從不斷擴大的數據庫中持續檢索信息。用戶反饋和系統運行數據會被反復收集。借助 AI 數據飛輪,您可以在基于應用交互構建機構知識的同時,生成經優化、更智能的答案。
企業數據優化:由此產生的結果就是,隨著時間推移,機構數據會基于收集自人類反饋和 AI 模型反饋的新數據持續更新。隨著流程的重復,這一過程將反饋到數據處理中。
2擴展 AI 數據飛輪策略的目的是什么?
現實世界的 AI 智能體系統可能包含數百至數千個 AI 智能體,通過同時工作來實現流程的自動化。數據飛輪對于簡化智能體操作(如審查新數據)至關重要,特別是在業務需求發生變化的情況下。這可確保 AI 智能體編排更加流暢,因為專業化的 AI 智能體團隊可以提供針對資源優化的規劃,并以更少的人工輸入執行這些計劃。
代理式 AI 的可擴展性依賴于由數據管護、模型訓練、部署以及機構知識收集審查構成的自動化周期,最終實現智能體性能的不斷提升。
此外,AI 應用還涉及若干身擔特定職責的人類協作者:
3為什么數據飛輪對于代理式 AI和生成式 AI 的采用至關重要?
在采用 AI 智能體和生成式 AI 應用時,需要借助數據飛輪來推動軟件持續改進、提升適應性。例如,隨著業務需求發生變化或復雜性增加,性能和成本往往成為決定商業成敗的關鍵。
借助高效的 AI 數據飛輪,企業組織可以:
開發符合業務或客戶需求且經濟高效的應用。
對產品進行個性化和優化,改善用戶體驗。
達成切實的目標,如提高銷售轉化率或通過實施自動化提升生產力。
為保持競爭優勢,企業組織可以收集處理新的交互數據、優化 AI 模型,并逐步提升其 AI 應用的性能。從 LLM 到視覺語言模型 (VLM),可用于集成的數據類型豐富多樣。
開發團隊也可以加快模型訓練速度,專注于利用其專有數據對現有基礎模型進行調優。生成式 AI 微服務可通過 API 調用進一步簡化這一流程。
這種方法能夠大幅減少開發和部署代理式 AI 和生成式 AI 解決方案所需的時間和資源。
4應該在何時對數據飛輪進行加速?
加速 AI 數據飛輪對解決與代理式 AI 技術相關的依賴關系具有重要意義。
例如,如果沒有集中式反饋和日志記錄系統,我們就難以對系統性能進行跟蹤和分析,而這有可能影響數據飛輪的運行速度。如果評估數據集不能準確反映現實世界場景,就有可能導致模型性能欠佳。
隨著知識庫的更新,系統反饋的相關性可能會下降,從而使飛輪難以實現持續改進。人工干預雖然有益,但需要耗費大量資源和時間。解決這一問題,將有助于在加速數據飛輪同時保持其效能。
這樣一來,當系統層面發生大量影響性能的交互時,加速就變得很有必要。例如,在生成式 AI 應用中,準確性和與符合人類偏好很重要。在代理式 AI 應用中,則需要 AI 知識工作者對計劃進行簡化和執行。
5如何開始使用數據飛輪?
要借助數據飛輪構建新一代代理式 AI 和生成式 AI 應用,需要對機構數據進行快速迭代和利用。
NVIDIA NeMo 是一個用于構建數據飛輪的端到端平臺,可助力企業利用最新信息對 AI 智能體進行持續優化。
借助 NeMo,企業 AI 開發者能夠輕松完成對數據的大規模管護,利用熱門調優技術定制 LLM,根據行業和自定義基準測試對模型進行具有一致性的評估,并在護欄的保障下得到適用且可靠的輸出結果。
NeMo 平臺包含:
NeMo Curator:可高效管護用于訓練 LLM 的高質量數據集,從而起到提高模型性能、加速 AI 解決方案部署的作用。
NeMo Customizer:一項高性能、可擴展的微服務,可運用 LoRA、DPO 等熱門參數高效調優技術,簡化 LLM 的微調和校準工作。
NeMo Evaluator:一項企業級微服務,用于提供生成式 AI 模型的行業標準基準測試、合成數據生成以及端到端的 RAG 工作流。
NeMo Guardrails:一項面向開發者的微服務,可幫助開發者在基于 LLM 的應用中實現強大的安全性和保障措施,確保這些應用始終具有可靠性,且符合組織的政策和指南。
NeMo Retriever:一組微服務,可通過可擴展的數據采集和高精度的隱私保護檢索為 AI 數據飛輪賦能。依靠源自大型數據集合、具有上下文感知能力的快速響應能力,開發者能夠將 AI 應用與不同數據源連接起來,構建 AI 查詢引擎,并利用實時洞察對 AI 模型進行持續優化。
-
AI
+關注
關注
87文章
34335瀏覽量
275526 -
模型
+關注
關注
1文章
3495瀏覽量
50037 -
智能體
+關注
關注
1文章
270瀏覽量
10973
原文標題:麗臺科普丨什么是數據飛輪?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
【「零基礎開發AI Agent」閱讀體驗】+Agent的工作原理及特點
DDR內存的工作原理與結構
磁懸浮儲能飛輪上的逆變器
UWB模塊工作原理 UWB模塊應用案例
輔助電源的工作原理
什么是飛輪儲能 – 它是如何工作的?

飛輪儲能系統充放電電阻-水冷泄放電阻選型參考

串行接口的工作原理和結構
VCO的工作原理是什么
EasyGo實時仿真丨飛輪儲能系統硬件在環仿真測試

評論