這家云計算巨頭的計算機視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。
作為一名狂熱的自行車愛好者,Thomas Park 深知擁有多個變速檔位對于平穩(wěn)、快速騎行的重要性。
因此,當(dāng)這位軟件架構(gòu)師為 Oracle Cloud Infrastructure(OCI)的視覺 AI 服務(wù)設(shè)計 AI 推理平臺時,他選擇了 NVIDIA Triton 推理服務(wù)器,因為它可以通過變換“檔位”,來快速高效地處理幾乎任何 AI 模型、框架、硬件和運行模式。
Park 表示:“NVIDIA AI推理平臺為我們的全球云服務(wù)客戶帶來了巨大的靈活性,讓他們可以構(gòu)建和運行 AI 應(yīng)用。”Park 是一位在蘇黎世工作的計算機工程師,同時也是一名富有競爭力的自行車手,他曾先后就職于四家全球超大型云服務(wù)提供商。
具體而言,Triton 將 OCI 的總擁有成本降低了 10%、將遷移到 Triton 的 OCI 視覺和文檔理解服務(wù)模型的預(yù)測吞吐量提高了 76%,并將推理延遲降低了 51%。Park 和一位同事在今年早些時候發(fā)布的一篇 Oracle 博客中指出,全球有超過 45 個區(qū)域數(shù)據(jù)中心在運行這些服務(wù)。
計算機視覺加速深入洞察
依靠 OCI 視覺 AI,客戶可以進行各種物體檢測和圖像分類工作。例如,美國的一家運輸公司利用它來自動檢測經(jīng)過的車軸數(shù),以計算和結(jié)算過橋費,從而節(jié)省了忙碌的卡車司機在收費站的等待時間。
OCI AI 還通過 Oracle NetSuite 提供,Oracle NetSuite 是全球 37,000 多個企業(yè)組織使用的一套商業(yè)應(yīng)用程序,它可以用于自動識別發(fā)票等工作。
在 Park 的努力下,Triton 如今也被其他 OCI 服務(wù)所采用。
能夠識別 Triton 的數(shù)據(jù)服務(wù)
負(fù)責(zé)處理 Oracle 內(nèi)外部用戶機器學(xué)習(xí)事務(wù)的 OCI 數(shù)據(jù)科學(xué)服務(wù)產(chǎn)品管理總監(jiān) Tzvi Keisar 表示:“我們的 AI 平臺能夠識別 Triton,以造福于我們的客戶。”
Keisar 提到:“想要使用 Triton 的客戶不必?fù)?dān)心配置問題,因為平臺會自動完成配置,為他們啟動一個 Triton 驅(qū)動的推理終端節(jié)點。”
Triton 包含在 NVIDIA AI Enterprise 中,該平臺可提供企業(yè)所需的全方位的安全和支持,并且可以在 OCI Marketplace 上獲得
一個龐大的 SaaS 平臺
OCI 的數(shù)據(jù)科學(xué)服務(wù)是一個適用于 Oracle NetSuite 和 Oracle Fusion 應(yīng)用程序的機器學(xué)習(xí)平臺。
“這些商業(yè)應(yīng)用套件規(guī)模龐大,有數(shù)以萬計的客戶也在我們的服務(wù)上構(gòu)建他們的框架。”Keisar 說。
這些客戶主要是來自于制造業(yè)、零售業(yè)、交通運輸業(yè)等行業(yè)的企業(yè)用戶。他們正在構(gòu)建和使用幾乎所有形態(tài)與規(guī)模的 AI 模型。
推理是該團隊推出的首批服務(wù)之一,而 Triton 在推出后不久就進入了該團隊的視線。
最佳的推理框架
“我們看到 Triton 作為一流的服務(wù)框架越來越受歡迎,于是開始試用。”Keisar 說,“我們發(fā)現(xiàn)它的性能非常出色,彌補了現(xiàn)有產(chǎn)品的不足,尤其是在多模型推理方面。它是目前功能最全面、最先進的推理框架。”
Triton 于 3 月在 OCI 上發(fā)布,已經(jīng)吸引了 Oracle 許多內(nèi)部團隊的關(guān)注。他們希望將其用于需要同時運行多個 AI 模型以作出預(yù)測的推理工作。
他表示:“當(dāng)用于部署在單個端點上的多個模型時,Triton 的表現(xiàn)和性能都非常好。”
加快未來發(fā)展
展望未來,復(fù)雜的大語言模型(LLM)激發(fā)了眾多用戶的想象力。為了能夠在未來為這些模型上的推理提供更強大的助力,Keisar 的團隊正在對 NVIDIA TensorRT-LLM 軟件進行評估。
身為一名活躍的博主,Keisar 在其最新文章中詳細介紹了在 NVIDIA A10 Tensor Core GPU 上運行具有高達 700 億參數(shù)的 Llama 2 LLM 的量化技術(shù)。
他表示:“即使減低到四位參數(shù),模型輸出的質(zhì)量仍然相當(dāng)不錯。在 NVIDIA GPU 上的部署使我們能夠靈活地在延遲、吞吐量和成本之間找到良好的平衡點。”
審核編輯:劉清
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5238瀏覽量
105764 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1706瀏覽量
46568 -
LLM
+關(guān)注
關(guān)注
1文章
319瀏覽量
679
原文標(biāo)題:名不虛傳:NVIDIA Triton 加速 Oracle Cloud 上的推理
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于RAKsmart云服務(wù)器的AI大模型實時推理方案設(shè)計
AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購技巧

國產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實戰(zhàn)案例

英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

Triton編譯器在機器學(xué)習(xí)中的應(yīng)用
NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢是什么?
AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

評論