解析 AI 在生產(chǎn)環(huán)境中的部署成本,助力用戶實現(xiàn)性能優(yōu)化和盈利能力。
隨著AI模型的持續(xù)演進與應用普及,企業(yè)需要在價值最大化的目標下進行精心權衡。
這是因為推理(將數(shù)據(jù)輸入模型并獲取輸出的運算過程)面臨與模型訓練截然不同的計算挑戰(zhàn)。
預訓練模型(數(shù)據(jù)導入、token化分解及模式識別的過程)本質(zhì)上是單次的成本投入。但在推理過程中,模型的每個提示詞 (prompt)都會生成token,而每個token都會產(chǎn)生成本。
這意味著,隨著AI模型性能提升和應用規(guī)模擴大,token的生成量及其相關計算成本也會增加。對于希望構建AI能力的企業(yè)來說,關鍵在于控制計算成本的同時,以最快的速度、最高的準確性和服務質(zhì)量生成盡可能多的token。
為此,AI生態(tài)系統(tǒng)持續(xù)推動推理效率優(yōu)化與成本壓縮。得益于模型優(yōu)化技術的重大突破,過去一年中推理成本持續(xù)呈下降趨勢,催生了日益先進、高能效的加速計算基礎架構和全棧解決方案。
根據(jù)斯坦福大學“以人為本人工智能研究所 (HAI)”發(fā)布的《2025年人工智能指數(shù)報告》,“2022年11月至2024年10月期間,達到GPT-3.5水平系統(tǒng)的推理成本降幅超280倍。硬件層面的成本年降幅30%,而能效年提升率達40%。開放權重模型也在縮小與閉源模型的差距,部分基準測試中,性能差距在一年內(nèi)就從8%縮小到僅1.7%。多重趨勢共同作用下先進AI的門檻正在迅速降低。”
隨著模型持續(xù)演進引發(fā)需求及token量級增加,企業(yè)必須擴展其加速計算資源,以提供下一代AI邏輯推理工具,否則將面臨成本和能耗增加的風險。
以下是推理經(jīng)濟學概念的入門指南,幫助企業(yè)可以建立戰(zhàn)略定位,實現(xiàn)高效、高性價比且可盈利的大規(guī)模AI解決方案。
AI 推理經(jīng)濟學的關鍵術語
了解推理經(jīng)濟學的關鍵術語是理解其重要性的基礎。
詞元 (Token)是AI模型中的基本數(shù)據(jù)單位,源自訓練過程中的文本、圖像、音頻片段和視頻等數(shù)據(jù)。通過token化 (tokenization)過程,原始數(shù)據(jù)被解構成最小語義單元。在訓練過程中,模型會學習標記token之間的關系,從而執(zhí)行推理并生成準確、相關的輸出。
吞吐量 (Throughput)指的是模型在單位時間內(nèi)輸出的token量,其本身是運行模型基礎架構的一個函數(shù)。吞吐量通常以token/每秒為單位,吞吐量越高,意味著基礎架構的回報越高。
延遲(Latency)是指從輸入提示到模型開始響應所需的時間。較低的延遲意味著更快的響應。衡量延遲的兩種主要方法包括:
首 token 時延 (Time to First Token, TTFT):用戶輸入提示后,模型生成第一個輸出 token 所需的時間。
首 token 后,每個輸出 token 的時延 (Time per Output Token, TPOT):連續(xù) token 之間的平均輸出時間,也可以理解為,模型為每個用戶的查詢請求生成一個完整輸出 token 所需要的時間。它也被稱為“token 間延遲”或“token 到 token 延遲”。
TTFT和TPOT固然是重要的基準參數(shù),但它們只是眾多計算公式中的兩個部分,只關注這兩項指標仍可能導致性能衰減或成本超支。
為了考慮其他相互依賴的因素,IT領導者開始衡量“有效吞吐量(goodput)”,即在維持目標TTFT和TPOT水平的前提下,系統(tǒng)實際達成的有效吞吐量。這一指標使企業(yè)能夠以更全面的方式評估性能,保持吞吐量、延遲和成本的最優(yōu)配置,確保運營效率和優(yōu)秀的用戶體驗。
能效是衡量 AI 系統(tǒng)將電能轉(zhuǎn)化為計算輸出效率的指標,以每瓦特性能來表示。通過使用加速計算平臺,組織可以在降低能耗的同時,最大化每瓦特的 token 處理量。
擴展定律 (Scaling Law) 如何應用于推理成本
理解推理經(jīng)濟學的核心在于掌握 AI 的三大擴展定律:
-預訓練擴展 (Pretraining scaling):最初的擴展定律表明,通過提升訓練數(shù)據(jù)集規(guī)模、模型參數(shù)數(shù)量以及增加計算資源,能夠?qū)崿F(xiàn)模型智能水平和準確率的可預測性提升。
-后訓練 (Post-training):對模型的準確性和領域?qū)I(yè)性進行微調(diào),以便將其用于應用開發(fā)。可以使用檢索增強生成 (RAG) 等技術從企業(yè)數(shù)據(jù)庫返回更相關的答案。
-測試時擴展 (Test-time scaling,又稱“長思考”或“邏輯推理”):在推理過程中,模型會分配額外的計算資源,以評估多種可能的結果,然后得出最佳答案。
雖然AI在不斷發(fā)展,后訓練和測試時擴展技術也在持續(xù)迭代,但這并不意味著預訓練即將消失,它仍然是擴展模型的重要方法。要支持后訓練和測試時擴展,仍需要進行預訓練。
可盈利的 AI 需要全棧方案
相較于只經(jīng)過預訓練和后訓練的模型推理,采用測試時擴展的模型會生成多個token來解決復雜問題。這雖然可以顯著提升準確性和模型輸出的相關性,但計算成本也會更高。
更智能的 AI 意味著生成更多 token 來解決問題,而優(yōu)質(zhì)的用戶體驗意味著盡可能快地生成這些 token。AI 模型越智能、越快速,對公司和客戶的實用性就越大。
企業(yè)需要擴展其加速計算資源,構建能支持復雜問題求解、代碼生成和多步驟規(guī)劃的下一代 AI 邏輯推理工具,同時避免成本激增。
這需要先進的硬件和全面優(yōu)化的軟件棧。NVIDIA AI 工廠產(chǎn)品路線圖旨在滿足計算需求,幫助解決復雜的推理問題,同時實現(xiàn)更高的效率。
AI 工廠集成了高性能 AI 基礎設施、高速網(wǎng)絡和經(jīng)優(yōu)化的軟件,可大規(guī)模生產(chǎn)智能。這些組件設計靈活、可編程,使企業(yè)能夠優(yōu)先關注對其模型或推理需求更關鍵的領域。
為了進一步簡化在部署大規(guī)模 AI 邏輯推理模型時的操作,AI 工廠在高性能、低延遲的推理管理系統(tǒng)上運行,確保以盡可能低的成本滿足 AI 邏輯推理所需的速度和吞吐量,從而最大化提升 token 收入。
-
NVIDIA
+關注
關注
14文章
5246瀏覽量
105787 -
AI
+關注
關注
87文章
34275瀏覽量
275464 -
模型
+關注
關注
1文章
3488瀏覽量
50013
原文標題:推理經(jīng)濟學如何驅(qū)動 AI 價值最大化
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
AI推理的存儲,看好SRAM?

谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

華為AI WAN在智算邊緣推理網(wǎng)絡中的關鍵優(yōu)勢
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
AI變革正在推動終端側(cè)推理創(chuàng)新
淺談AI Agent的發(fā)展階段
生成式AI推理技術、市場與未來

AI推理CPU當?shù)溃珹rm驅(qū)動高效引擎

NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案

李開復:中國擅長打造經(jīng)濟實惠的AI推理引擎
AMD助力HyperAccel開發(fā)全新AI推理服務器

評論