大型洗浴会所偷拍视频,东京热空姐群交,福利所导航夜趣

NVIDIA推理平臺提高了AI推理性能，為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。

今年，各行各業(yè)的企業(yè)都在紛紛推出 AI 服務。對于微軟、Oracle、Perplexity、Snap 等數(shù)百家領先企業(yè)來說，使用 NVIDIA AI 推理平臺（由世界領先的芯片、系統(tǒng)和軟件組成的全堆棧）是實現(xiàn)高吞吐量、低延遲推理的關鍵，并且還能在降低成本的同時為用戶帶來卓越體驗。

NVIDIA 憑借在推理軟件優(yōu)化和NVIDIA Hopper平臺方面所取得的進步，正在幫助行業(yè)服務于最新的生成式 AI 模型，在提供出色的用戶體驗的同時，優(yōu)化總體擁有成本。與前幾代產品相比，Hopper 平臺還可幫助推理工作負載實現(xiàn)高達 15 倍的能效提升。

AI 推理的難度眾所周知，因為它需要經過許多步驟，才能在吞吐量和用戶體驗之間達成適當?shù)钠胶狻?/p>

但其根本目標很簡單：以更低的成本生成更多的 token。Token 代表大語言模型 (LLM) 系統(tǒng)中的單詞，而 AI 推理服務通常按生成的每百萬個 token 收費，這一目標能夠給 AI 投資和每項任務所用能源帶來最顯著的回報。

全棧軟件優(yōu)化是提高 AI 推理性能和實現(xiàn)這一目標的關鍵。

以經濟的方式提高用戶吞吐量

企業(yè)經常面臨著平衡推理工作負載性能與成本的挑戰(zhàn)。有些客戶或用例可以使用開箱即用的模型或托管模型，有些則可能需要使用定制模型。NVIDIA 技術可在簡化模型部署的同時，優(yōu)化 AI 推理工作負載的成本和性能。此外，客戶還可以體驗到他們選擇部署的模型的靈活性和可定制性。

為了滿足用戶需求，NVIDIA 推出了NVIDIA NIM微服務、NVIDIA Triton推理服務器和NVIDIA TensorRT庫等推理解決方案：

NVIDIA NIM是一套用于部署 AI 模型的推理微服務，是一套易于使用的預構建容器工具，專為在一切基礎設施（云、數(shù)據中心、邊緣或工作站）上快速部署 AI 基礎模型。

NVIDIA Triton推理服務器是 NVIDIA 最受歡迎的開源項目之一，允許用戶將基于各類 AI 訓練框架的模型封裝并提供服務。

NVIDIA TensorRT是一個包含運行時和模型優(yōu)化工具的高性能深度學習推理庫，能夠為生產級的應用實現(xiàn)低延遲、高吞吐量的推理。

NVIDIA AI Enterprise軟件平臺包含以上所有解決方案，并提供企業(yè)級支持、穩(wěn)定性、易管理性和安全性，可通過各大主要云應用市場獲取。

借助與框架無關的 NVIDIA AI 推理平臺，企業(yè)可節(jié)省生產力、減少開發(fā)工作并降低基礎設施和設置成本。使用 NVIDIA 技術還能幫助企業(yè)避免停機和欺詐交易、提高電商購物轉化率并開辟 AI 驅動的新收入渠道，從而增加企業(yè)的收入。

云上 LLM 推理

為了簡化大語言模型的部署，NVIDIA 與各大云服務提供商密切合作，以確保只需極少的代碼甚至無需代碼就能在云端無縫部署 NVIDIA 推理平臺。NVIDIA NIM 已經與云原生服務集成，包括：

Amazon SageMaker AI、Amazon Bedrock Marketplace、Amazon Elastic Kubernetes Service

Google Cloud’s Vertex AI、Google Kubernetes Engine

Microsoft Azure AI Foundry 即將推出、Azure Kubernetes Service

Oracle Cloud Infrastructure 的數(shù)據科學工具，Oracle Cloud Infrastructure Kubernetes Engine

此外，為了實現(xiàn)定制化的推理部署，NVIDIA Triton 推理服務器已經與各大云服務提供商深度集成。

例如在使用 OCI Data Science 平臺部署 NVIDIA Triton 時，只需執(zhí)行像在模型部署期間打開命令行參數(shù)中的開關一樣簡單的操作，就可以立即啟動 NVIDIA Triton 推理端點。

同樣，借助 Azure Machine Learning，用戶可以通過 Azure Machine Learning Studio 進行 NVIDIA Triton 無代碼部署，也可以通過 Azure Machine Learning CLI 進行全代碼部署。AWS 為 SageMaker Marketplace 中的 NVIDIA NIM 提供一鍵部署，Google Cloud 在 Google Kubernetes Engine (GKE) 上提供一鍵部署選項。AWS 在其 AWS 深度學習容器上提供 NVIDIA Triton。

NVIDIA AI 推理平臺還使用流行的通信方法來提供 AI 預測，并通過自動調整來滿足基于云的基礎架構中不斷增長和變化的用戶需求。

從加速 LLM 到改進創(chuàng)意工作流和改變協(xié)議管理，NVIDIA 的 AI 推理平臺正在各個行業(yè)產生實際的影響。以下企業(yè)通過合作與創(chuàng)新將效率和可擴展性提升到新的水平。

與 Perplexity AI 的合作：

每月處理 4 億次搜索查詢

Perplexity AI 是一款 AI 搜索引擎，每月處理的查詢超過 4.35 億次，而且每次查詢都包含多個 AI 推理請求。為了滿足這一需求，Perplexity AI 團隊開始使用 NVIDIA Hopper GPU、Triton 推理服務器和 TensorRT-LLM。

Perplexity 支持 20 多個 AI 模型，包括 8B、70B 等 Llama 3 變體，能夠處理搜索、摘要和問題解答等各種任務。通過使用較小的分類器模型將任務分流到 NVIDIA Triton 管理的各個 GPU pod，該公司在嚴格的服務水平協(xié)議下提供了經濟高效、響應迅速的服務。

通過模型并行技術（將 LLM 分配到各個 GPU 上），Perplexity 在保持低延遲和高準確性的同時，將成本降低至原來的三分之一。這一最佳實踐框架展示了 IT 團隊如何借助 NVIDIA 加速計算滿足日益增長的 AI 需求、降低總體擁有成本并實現(xiàn)無縫擴展。

使用 Recurrent Drafter (ReDrafter)

縮短響應時間

開源研究的進步正在幫助實現(xiàn) AI 推理的民主化。最近，NVIDIA 將 Apple 發(fā)布的推測解碼開源方法 Redrafter 整合到 NVIDIA TensorRT-LLM 中。

ReDrafter 先使用較小的“draft”模塊并行預測 token，然后由主模型對 token 進行驗證。這項技術大大縮短了 LLM 的響應時間，尤其是在低流量期間。

與 Docusign 的合作：

改變協(xié)議管理

數(shù)字協(xié)議管理領域的領先企業(yè) Docusign 借助 NVIDIA 為其智能協(xié)議管理平臺提供超強助力。Docusign 在全球擁有超過 150 萬客戶，該公司需要在優(yōu)化吞吐量和管理基礎設施支出的同時，提供 AI 驅動的洞察。

NVIDIA Triton 提供了一個適用于所有框架的統(tǒng)一推理平臺，通過將協(xié)議數(shù)據轉換成可操作的洞察，加快產品上市時間并提高生產力。Docusign 使用 NVIDIA 推理平臺突顯出可擴展的 AI 基礎設施對客戶體驗和運營效率所產生的積極影響。

Docusign 高級產品經理 Alex Zakhvatov 表示：“NVIDIA Triton 讓我們的生活變得更加輕松。我們不再需要為 AI 模型部署特定框架的定制推理服務器，而是可以將 Triton 作為所有 AI 框架的統(tǒng)一推理服務器，并使用它來確定正確的生產場景，以此優(yōu)化降低成本和節(jié)省性能的工程項目。”

與 Amdocs 的合作：

提升電信行業(yè)的客戶服務

Amdocs 是一家為通信和媒體服務商提供軟件和服務的領先供應商，該公司為電信企業(yè)構建的特定領域生成式 AI 平臺 amAIz 是一個開放、安全、經濟且與 LLM 無關的框架。Amdocs 正在使用NVIDIA DGX Cloud和 NVIDIA AI Enterprise 軟件提供基于商用 LLM 和領域適配模型的解決方案，使服務提供商能夠構建和部署企業(yè)級生成式 AI 應用。

通過使用 NVIDIA NIM，Amdocs 部署的用例在數(shù)據預處理和推理中消耗的 token 數(shù)量分別減少了 60% 和 40%，并根據不同的因素和使用量，在保證準確性不變的前提下大幅降低了單位 token 的成本。雙方還一同將查詢延遲降低了約 80%，確保終端用戶體驗到接近實時的響應。這一加速提升了用戶在商務、客服、運營等方面的體驗。

與 Snap 的合作：

利用 AI 革新零售業(yè)態(tài)

Snap 的 Screenshop 功能讓購買完美服裝變得空前簡單。這款由 AI 驅動的工具集成在 Snapchat 中，可幫助用戶找到照片中的時尚單品。NVIDIA Triton 在實現(xiàn) Screenshop 的流程方面發(fā)揮著關鍵作用，該流程使用包括 TensorFlow 和 PyTorch 在內的多個框架來處理圖像。

Snap 的 Screenshop AI 工作流

Snap 將其流程整合到一個推理服務平臺上，大大減少了開發(fā)時間和成本，同時還能夠無縫部署更新后的模型，實現(xiàn)了 AI 驅動的順暢用戶體驗。

Snap 的機器學習工程師 Ke Ma 解釋道：“我們不想為我們的 Screenshop 流程部署定制推理服務平臺，也不想分別為 TensorFlow 和 PyTorch 部署 TF 服務平臺和 TorchServe 平臺。Triton 采用了與框架無關的設計并支持 TensorFlow、PyTorch 和 ONNX 等多種后端，對我們來說非常具有吸引力。借助它，我們只需要使用一個推理服務平臺就能提供我們的端到端流程。這既降低了我們的推理服務成本，又減少了開發(fā)者在生產中更新模型所需的天數(shù)。”

在 NVIDIA Triton 上成功推出 Screenshop 服務之后，Ma 和他的團隊開始使用 NVIDIA TensorRT 來進一步提高系統(tǒng)性能。在編譯過程中應用 NVIDIA TensorRT 默認設置后，Screenshop 團隊看到吞吐量立刻激增了 3 倍，成本預計降低了 66%。

與 Wealthsimple 的合作：

借助 AI 實現(xiàn)財務自由

Wealthsimple是一家資產管理規(guī)模超過300億加元的加拿大投資平臺。該公司使用 NVIDIA AI 推理平臺重新定義了其機器學習方法。通過將基礎設施標準化，Wealthsimple 將模型交付時間從原來的數(shù)月縮短至 15 分鐘以內，不僅徹底避免了停機時間，還能夠讓團隊以服務的形式提供機器學習。

通過使用 NVIDIA Triton 并在 AWS 上運行其模型，Wealthsimple 的正常運行時間達到 99.999%，確保了對每年超過 1.45 億筆交易作出無縫預測。該轉變充分展現(xiàn)出強大的 AI 基礎設施為金融服務帶來變革。

Wealthsimple 高級軟件開發(fā)經理 Mandy Gu 表示：“NVIDIA 的 AI 推理平臺一直是我們公司在 ML 領域取得成功的關鍵。它徹底改變了我們的模型部署方式，減少了停機時間，使我們能夠為客戶提供無與倫比的服務。”

與 Let's Enhance 的合作：

提升創(chuàng)意工作流

AI 驅動的圖像生成改變了創(chuàng)意工作流并且可以應用于企業(yè)用例，例如為營銷視覺效果創(chuàng)建個性化內容和富有想象力的背景等。雖然擴散模型是改進創(chuàng)意工作流的強大工具，但這些模型的計算成本很高。

為了在生產中使用 Stable Diffusion XL 模型優(yōu)化工作流，領先的 AI 初創(chuàng)公司 Let’s Enhance 選擇了 NVIDIA AI 推理平臺。

使用 SDXL 驅動的 Let's Enhance 平臺創(chuàng)建的

帶有背景的產品圖片

Let's Enhance 的最新產品 AI Photoshoot 使用 SDXL 模型將普通產品照片轉換成適用于電商網站和營銷活動的精美視覺資產。

借助 NVIDIA Triton 對各種框架和后端的強大支持及其動態(tài)批處理功能集，Let's Enhance 能夠將 SDXL 模型無縫集成到現(xiàn)有的 AI 管線中并最大程度地減少工程團隊的參與，使他們能夠騰出時間進行研發(fā)工作。

與 OCI 的合作：

加速云端視覺 AI

為驅動其視覺 AI 服務，Oracle Cloud Infrastructure (OCI)集成了 NVIDIA Triton，將預測吞吐量提高了 76%，并將延遲降低了 51%。這些優(yōu)化提升了客戶的應用體驗，包括為交通機構實現(xiàn)收費自動化、為全球企業(yè)簡化發(fā)票識別等。

憑借 Triton 與硬件無關的功能，OCI 擴展了自己的 AI 服務組合，通過其全球數(shù)據中心為客戶提供了強大而高效的解決方案。

負責為 Oracle 內部和外部用戶處理機器學習的 OCI 數(shù)據科學服務產品管理總監(jiān) Tzvi Keisar 表示：“我們的 AI 平臺具有 Triton 感知能力，能夠為我們的客戶創(chuàng)造效益。”

與微軟的合作：

提高實時上下文智能水平和搜索效率

Azure 提供了最廣泛的 NVIDIA AI 驅動和優(yōu)化的虛擬機。這些虛擬機涵蓋多代 NVIDIA GPU，包括 NVIDIA Blackwell 和 NVIDIA Hopper 系統(tǒng)。

在這一深厚的工程合作歷史基礎上，NVIDIA GPU 和 NVIDIA Triton 目前幫助加速 Microsoft 365 Copilot 中的 AI 推理。作為 Windows PC 上的專用物理鍵盤鍵，Microsoft 365 Copilot 將大語言模型的強大功能與企業(yè)專有數(shù)據相結合，為用戶提供了提高創(chuàng)造力、生產力和技能的實時上下文智能。

微軟必應 (Bing) 還使用 NVIDIA 推理解決方案應對延遲、成本和速度等挑戰(zhàn)。通過集成 NVIDIA TensorRT-LLM 技術，微軟極大提高了其深度搜索功能的推理性能，進一步優(yōu)化了網頁搜索結果。

深度搜索演示由微軟提供

微軟必應視覺搜索使世界各地的人們能夠通過照片查找內容。該功能的核心是微軟的 TuringMM 視覺嵌入模型，該模型將圖像和文本映射到一個共享的高維空間。該模型需要處理全網數(shù)十億張圖片，因此性能至關重要。

微軟必應使用NVIDIA TensorRT 和 NVIDIA 加速庫 (包括CV-CUDA和nvImageCodec) 對 TuringMM 流程進行了優(yōu)化，使速度提高了 5.13 倍，并且顯著降低了總體擁有成本。

通過硬件創(chuàng)新解鎖 AI 推理的全部潛力

提高 AI 推理工作負載的效率是一項涉及多個方面的挑戰(zhàn)，需要同時在軟硬件領域進行技術創(chuàng)新才能實現(xiàn)。

NVIDIA GPU 處于 AI 賦能的前沿領域，為 AI 模型提供高效率和高性能，而且是節(jié)能的 GPU：基于 NVIDIA Blackwell 架構的 NVIDIA 加速計算將萬億參數(shù) AI 模型推理工作的單位 token 生成能耗降低至過去十年的十萬分之一。

NVIDIA Grace Hopper超級芯片使用 NVIDIA NVLink-C2C 將 NVIDIA Grace CPU 和 Hopper GPU 架構相結合，為各個行業(yè)帶來了顯著的推理性能提升。

利用 Meta Andromeda 行業(yè)領先的

機器學習釋放廣告商價值

Meta Andromeda 正在使用這款超級芯片實現(xiàn)高效率、高性能的個性化廣告檢索。通過創(chuàng)建具有更高計算復雜性和并行性的深度神經網絡，它在 Facebook 和 Instagram 上實現(xiàn)了特定細分市場 8% 的廣告質量提升和 6% 的召回率提升。

憑借經過優(yōu)化的檢索模型以及具有低延遲、高吞吐量和顯存 IO 感知能力的 GPU 運算器，Andromeda 的特征提取速度比之前基于 CPU 的組件提高了 100 倍。Meta 這種在檢索階段集成 AI 的方式在廣告檢索領域處于領先地位，解決了可擴展性和延遲等難題，為用戶帶來了更好的體驗和更高的廣告投資回報。

隨著前沿 AI 模型規(guī)模的不斷擴大，生成每個 token 所需的計算量也在增加。為了實時運行最先進的 LLM，企業(yè)需要多個 GPU 協(xié)同工作。NVIDIA 集合通信庫 (NCCL) 等工具能夠讓多 GPU 系統(tǒng)以最短的通信時間在 GPU 之間快速交換大量數(shù)據。

未來的 AI 推理創(chuàng)新

未來的 AI 推理有望大幅提高性能并降低成本。

通過結合 NVIDIA 的軟件、新技術和先進硬件，數(shù)據中心將能夠處理日益復雜和多樣化的工作負載。憑借更準確的預測、更快的決策和更好的用戶體驗，AI 推理將繼續(xù)推動醫(yī)療、金融等行業(yè)的進步。

隨著這些趨勢的不斷發(fā)展，企業(yè)必須與時俱進，使用最新推理優(yōu)化來最大程度地發(fā)揮投資的作用，才能在 AI 時代保持競爭力。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴