亚洲高清福利,天天射电影,动态图试看120秒

這家云計算巨頭的計算機視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。

作為一名狂熱的自行車愛好者，Thomas Park 深知擁有多個變速檔位對于平穩(wěn)、快速騎行的重要性。

因此，當(dāng)這位軟件架構(gòu)師為 Oracle Cloud Infrastructure（OCI）的視覺 AI 服務(wù)設(shè)計 AI 推理平臺時，他選擇了 NVIDIA Triton 推理服務(wù)器，因為它可以通過變換“檔位”，來快速高效地處理幾乎任何 AI 模型、框架、硬件和運行模式。

Park 表示：“NVIDIA AI推理平臺為我們的全球云服務(wù)客戶帶來了巨大的靈活性，讓他們可以構(gòu)建和運行 AI 應(yīng)用。”Park 是一位在蘇黎世工作的計算機工程師，同時也是一名富有競爭力的自行車手，他曾先后就職于四家全球超大型云服務(wù)提供商。

具體而言，Triton 將 OCI 的總擁有成本降低了 10%、將遷移到 Triton 的 OCI 視覺和文檔理解服務(wù)模型的預(yù)測吞吐量提高了 76%，并將推理延遲降低了 51%。Park 和一位同事在今年早些時候發(fā)布的一篇 Oracle 博客中指出，全球有超過 45 個區(qū)域數(shù)據(jù)中心在運行這些服務(wù)。

計算機視覺加速深入洞察

依靠 OCI 視覺 AI，客戶可以進行各種物體檢測和圖像分類工作。例如，美國的一家運輸公司利用它來自動檢測經(jīng)過的車軸數(shù)，以計算和結(jié)算過橋費，從而節(jié)省了忙碌的卡車司機在收費站的等待時間。

OCI AI 還通過 Oracle NetSuite 提供，Oracle NetSuite 是全球 37,000 多個企業(yè)組織使用的一套商業(yè)應(yīng)用程序，它可以用于自動識別發(fā)票等工作。

在 Park 的努力下，Triton 如今也被其他 OCI 服務(wù)所采用。

能夠識別 Triton 的數(shù)據(jù)服務(wù)

負(fù)責(zé)處理 Oracle 內(nèi)外部用戶機器學(xué)習(xí)事務(wù)的 OCI 數(shù)據(jù)科學(xué)服務(wù)產(chǎn)品管理總監(jiān) Tzvi Keisar 表示：“我們的 AI 平臺能夠識別 Triton，以造福于我們的客戶。”

Keisar 提到：“想要使用 Triton 的客戶不必?fù)?dān)心配置問題，因為平臺會自動完成配置，為他們啟動一個 Triton 驅(qū)動的推理終端節(jié)點。”

Triton 包含在 NVIDIA AI Enterprise 中，該平臺可提供企業(yè)所需的全方位的安全和支持，并且可以在 OCI Marketplace 上獲得

一個龐大的 SaaS 平臺

OCI 的數(shù)據(jù)科學(xué)服務(wù)是一個適用于 Oracle NetSuite 和 Oracle Fusion 應(yīng)用程序的機器學(xué)習(xí)平臺。

“這些商業(yè)應(yīng)用套件規(guī)模龐大，有數(shù)以萬計的客戶也在我們的服務(wù)上構(gòu)建他們的框架。”Keisar 說。

這些客戶主要是來自于制造業(yè)、零售業(yè)、交通運輸業(yè)等行業(yè)的企業(yè)用戶。他們正在構(gòu)建和使用幾乎所有形態(tài)與規(guī)模的 AI 模型。

推理是該團隊推出的首批服務(wù)之一，而 Triton 在推出后不久就進入了該團隊的視線。

最佳的推理框架

“我們看到 Triton 作為一流的服務(wù)框架越來越受歡迎，于是開始試用。”Keisar 說，“我們發(fā)現(xiàn)它的性能非常出色，彌補了現(xiàn)有產(chǎn)品的不足，尤其是在多模型推理方面。它是目前功能最全面、最先進的推理框架。”

Triton 于 3 月在 OCI 上發(fā)布，已經(jīng)吸引了 Oracle 許多內(nèi)部團隊的關(guān)注。他們希望將其用于需要同時運行多個 AI 模型以作出預(yù)測的推理工作。

他表示：“當(dāng)用于部署在單個端點上的多個模型時，Triton 的表現(xiàn)和性能都非常好。”

加快未來發(fā)展

展望未來，復(fù)雜的大語言模型（LLM）激發(fā)了眾多用戶的想象力。為了能夠在未來為這些模型上的推理提供更強大的助力，Keisar 的團隊正在對 NVIDIA TensorRT-LLM 軟件進行評估。

身為一名活躍的博主，Keisar 在其最新文章中詳細介紹了在 NVIDIA A10 Tensor Core GPU 上運行具有高達 700 億參數(shù)的 Llama 2 LLM 的量化技術(shù)。

他表示：“即使減低到四位參數(shù)，模型輸出的質(zhì)量仍然相當(dāng)不錯。在 NVIDIA GPU 上的部署使我們能夠靈活地在延遲、吞吐量和成本之間找到良好的平衡點。”

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴