女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于TensorFlow的阿里巴巴本地生活推薦系統(tǒng)

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:NVIDIA ? 2022-04-11 17:31 ? 次閱讀

案例簡(jiǎn)介

本案例中,阿里巴巴本地生活場(chǎng)景中,部署了大量使用 TensorFlow深度學(xué)習(xí)推薦模型,這些模型需要對(duì)每個(gè)用戶(hù)附近的數(shù)千家商戶(hù)和產(chǎn)品進(jìn)行排名,對(duì)用戶(hù)響應(yīng)時(shí)間和業(yè)務(wù)吞吐量(QPS)要求極高。為了滿(mǎn)足這樣的要求 GPU 落地使用是必然,但由于 TensorFlow 目前對(duì) GPU 使用采用單一 steam 方式,并且逐個(gè)調(diào)用 GPU 算子的過(guò)程中存在大量的 GPU kernel 啟動(dòng)開(kāi)銷(xiāo), 因此如何在這些系統(tǒng)中充分發(fā)揮 GPU 計(jì)算能力則需要探索。

阿里巴巴本地生活推薦系統(tǒng)結(jié)合 NVIDIA CUDA Graphs 對(duì) GPU 進(jìn)行算力釋放優(yōu)化,讓推理過(guò)程單機(jī)吞吐增長(zhǎng) 110%,耗時(shí) P99 下降 66.7%。

本案例主要應(yīng)用到 NVIDIA V100 Tensor Core GPU 和 NVIDA CUDA Graphs。

客戶(hù)簡(jiǎn)介及應(yīng)用背景

阿里巴巴集團(tuán)旗下的阿里巴巴本地生活服務(wù)公司,是由餓了么和口碑會(huì)師合并組成國(guó)內(nèi)領(lǐng)先的本地生活服務(wù)平臺(tái),使命是“重新定義城市生活,讓生活更美好。”口碑專(zhuān)注到店消費(fèi)服務(wù),餓了么專(zhuān)注到家生活服務(wù),蜂鳥(niǎo)即配專(zhuān)注即時(shí)配送服務(wù),客如云專(zhuān)注為商家提供數(shù)字化升級(jí)的產(chǎn)品和服務(wù),共同推動(dòng)本地生活市場(chǎng)的數(shù)字化,讓天下沒(méi)有難做的生意。

阿里巴巴本地生活服務(wù)公司智能推薦系統(tǒng)基于智能AI系統(tǒng)對(duì)用戶(hù)所在區(qū)域萬(wàn)級(jí)商戶(hù)商品進(jìn)行實(shí)時(shí)智能推薦和服務(wù)。實(shí)時(shí)智能推薦伴隨著深度學(xué)習(xí)技術(shù)的發(fā)展,為了追求智能推薦的準(zhǔn)確度,推薦模型朝著兩個(gè)維度快速發(fā)展:1. 更寬更深的網(wǎng)絡(luò),更復(fù)雜的特征增強(qiáng)方式。2. 更多的不同維度的特征。這對(duì)在線推理階段的實(shí)時(shí)性能和算力提出了更高的挑戰(zhàn)。伴隨著搜索推薦模型的在 GPU 的廣泛落地使用,GPU 在各個(gè)場(chǎng)景下的算力優(yōu)化也被廣泛關(guān)注。

在線 Inference 過(guò)程中,由于考慮到存儲(chǔ) cache 的友好性,會(huì)把計(jì)算密集型算子和其周邊的數(shù)據(jù)變換算子都在 GPU 中執(zhí)行,算子數(shù)量的增長(zhǎng)會(huì)導(dǎo)致嚴(yán)重的 kernel 啟動(dòng)開(kāi)銷(xiāo),主要原因是:1. 大量小 kernel 的執(zhí)行

2. TensorFlow 的調(diào)度機(jī)制使得通過(guò)大量的線程啟動(dòng) kernel 到同一個(gè) stream 中;多個(gè)線程競(jìng)爭(zhēng)同個(gè)資源加劇 launch 開(kāi)銷(xiāo)。

客戶(hù)挑戰(zhàn)

在阿里巴巴本地生活推薦搜索場(chǎng)景中,有大量的深度學(xué)習(xí)模型在用戶(hù)和商戶(hù),用戶(hù)和商品匹配場(chǎng)景中使用,但是總體來(lái)看 GPU-Utilization 并不高,GPU 使用成本顯得比較高。隨著模型復(fù)雜度不斷攀升(Inference 計(jì)算達(dá)到 10~20 GFLOPS),算法同學(xué)的收益產(chǎn)出一定程度上和模型復(fù)雜度成正比關(guān)系。目前搜推廣的模型設(shè)計(jì)中部分子結(jié)構(gòu)設(shè)計(jì)和變換很多,但是基本范式如下:

Feature Generation -》 Embedding -》 Attention/Transformer -》 MLP

綠色部分基本屬于計(jì)算密集型部分,但是在搜推廣場(chǎng)景中,這部分算子不但包含對(duì)于算力需求旺盛的深度網(wǎng)絡(luò)相關(guān)算子,也包含數(shù)據(jù)合并,數(shù)據(jù)變換等輕量級(jí)計(jì)算算子,這類(lèi)算子的特點(diǎn)是:運(yùn)算時(shí)長(zhǎng)通常很短(1-10 微秒),而且這一類(lèi)輕量級(jí)計(jì)算算子的數(shù)量伴隨著 Transformer 的落地,數(shù)量占比逐步增高。

我們從另一個(gè)角度來(lái)量化這一過(guò)程輕量級(jí)計(jì)算算子的數(shù)量占比,GPU 的繁忙情況通常來(lái)說(shuō)有兩個(gè)指標(biāo):

1. GPU-Utilization,表示 GPU 在單位時(shí)間內(nèi)在執(zhí)行 kernel 的時(shí)間片比例。

2. SM Activity,表示 GPU 中 SM 在單位時(shí)間內(nèi)用于執(zhí)行 kernel 的 SM 使用比例*時(shí)間片比例。

我們可以看到在推薦搜索模型線上 Inference 過(guò)程中 SM Activity 通常遠(yuǎn)遠(yuǎn)低于 GPU-Utilization,這表示 GPU 雖然在忙碌,但是由于輕量級(jí)計(jì)算算子的數(shù)量占比較高,SM 使用比例使用比例不高,GPU 的實(shí)際 “工作量” 并不大。

輕量級(jí)計(jì)算算子的比例高會(huì)導(dǎo)致該部分算子在 CPU 上調(diào)度過(guò)程中 kernel launch 的執(zhí)行時(shí)長(zhǎng)遠(yuǎn)遠(yuǎn)大于算子在 GPU 上的執(zhí)行時(shí)長(zhǎng),這個(gè)現(xiàn)象會(huì)導(dǎo)致嚴(yán)重的 kernel launch bound 現(xiàn)象。

pYYBAGJT9cOAWBKFAAAsG_KhnbY467.png

應(yīng)用方案

基于以上挑戰(zhàn),阿里巴巴本地生活搜索推薦模型選擇了 NVIDIA 提供的 AI 加速方案:CUDA Graphs。

1、首先,我們根據(jù)業(yè)務(wù)場(chǎng)景的具體問(wèn)題,使用 NVIDIA Nsight Systems 進(jìn)行問(wèn)題定位和分析。我們利用 NVIDIA Nsight Systems 集成到線上 Inference 環(huán)境中,獲取了真實(shí)環(huán)境下 Inference 過(guò)程的 GPU Profing 文件。通過(guò) Profing 文件,我們可以清晰的看到 Inference 過(guò)程中,kernel launch bound 現(xiàn)象異常嚴(yán)重,符合我們的分析預(yù)想(如下圖)。

poYBAGJT9cuAPLIxAAClZF52Kso979.png

2、后續(xù),我們采用集成 CUDA Graphs 進(jìn)行模型 Inference 過(guò)程優(yōu)化,理論上 CUDA Graphs 會(huì)大幅緩解 kernel launch bound 現(xiàn)象,因?yàn)?CUDA Graphs 會(huì)合并 N 個(gè) kernel 獨(dú)立的 launch 操作,變?yōu)?1 個(gè) graph launch 操作,這樣 kernel launch 不再是整個(gè)推理的瓶頸(如下圖)。

poYBAGJT9dGACNttAACPZanBkeY752.png

使用效果及影響

經(jīng)過(guò)集成 NVIDIA Nsight System 進(jìn)行 GPU 使用情況查看和細(xì)節(jié)問(wèn)題的診斷,我們充分了解和分析了業(yè)務(wù)中對(duì) GPU 的使用情況的 kernel 執(zhí)行流程。對(duì)性能進(jìn)一步優(yōu)化起到了指導(dǎo)作用。后續(xù)集成 CUDA Graphs 后,符合預(yù)期效果。推薦深度學(xué)習(xí)模型在 Inference 過(guò)程中的耗時(shí) P99 下降 66%,單機(jī)吞吐提升 110%。讓用戶(hù)在毫無(wú)感知的時(shí)間范圍內(nèi)完成了模型算力達(dá)到 10 GFLOPS 的 Inference 過(guò)程,用戶(hù)體驗(yàn)得到了極大的提升。

在使用 NVIDIA Nsight Systems 進(jìn)行 GPU 瓶頸分析過(guò)程中,文檔查閱和使用教程很方便上手,集成過(guò)程也較為方便,指標(biāo)介紹很豐富,快速完成 GPU 使用情況分析。后續(xù) CUDA Graphs 使用過(guò)程中,相關(guān)文檔也比較完善,包括圖的切割和分裝,算子 Capture 標(biāo)準(zhǔn)等。

本次優(yōu)化過(guò)程,團(tuán)隊(duì)內(nèi)部積累了一套較為完善的 GPU 優(yōu)化手段和優(yōu)化方法理論,后續(xù)遇到其他模型性能問(wèn)題時(shí)也有的放矢。多場(chǎng)景進(jìn)行優(yōu)化后,對(duì)整個(gè) GPU。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5267

    瀏覽量

    105899
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4920

    瀏覽量

    130775
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34520

    瀏覽量

    276017
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    普華基礎(chǔ)軟件蒞臨阿里巴巴達(dá)摩院調(diào)研交流

    近日, 普華基礎(chǔ)軟件股份有限公司(以下簡(jiǎn)稱(chēng)普華基礎(chǔ)軟件)董事、總經(jīng)理劉宏倩一行前往阿里巴巴達(dá)摩院(杭州)科技有限公司(以下簡(jiǎn)稱(chēng)達(dá)摩院)調(diào)研交流,阿里巴巴集團(tuán)高層及達(dá)摩院核心團(tuán)隊(duì)參與了本次調(diào)研交流活動(dòng)
    的頭像 發(fā)表于 04-08 10:10 ?448次閱讀

    阿里云爆發(fā)式的跨越

    蘋(píng)果最終選擇了阿里巴巴作為它們?cè)谥袊?guó)的本地化合作伙伴! 2月13日,在迪拜舉辦的World Governments Summit 2025峰會(huì)上,阿里巴巴董事局主席蔡崇信自豪地宣布了這則消息。 他還
    的頭像 發(fā)表于 03-12 16:54 ?398次閱讀
    <b class='flag-5'>阿里</b>云爆發(fā)式的跨越

    Arm與阿里巴巴合作加速端側(cè)多模態(tài)AI體驗(yàn)

    Arm 控股有限公司(納斯達(dá)克股票代碼:ARM,以下簡(jiǎn)稱(chēng)“Arm”)近日發(fā)布與阿里巴巴淘天集團(tuán)輕量級(jí)深度學(xué)習(xí)框架 MNN 的又一新合作。
    的頭像 發(fā)表于 03-10 09:07 ?563次閱讀

    谷景阿里巴巴國(guó)際站正式上線

    在行業(yè)發(fā)展的關(guān)鍵節(jié)點(diǎn),谷景電子取得了重大突破,谷景阿里巴巴國(guó)際站正式上線!此次上線聚焦電感領(lǐng)域,旨在為全球客戶(hù)提供更較大好的電感產(chǎn)品與服務(wù),也標(biāo)志著谷景電感業(yè)務(wù)在國(guó)際化道路上邁出了關(guān)鍵一步。
    的頭像 發(fā)表于 02-26 09:44 ?390次閱讀

    阿里巴巴否認(rèn)投資DeepSeek傳聞

    近日,市場(chǎng)流傳出一則消息,稱(chēng)阿里巴巴計(jì)劃向人工智能企業(yè)DeepSeek投資10億美元,意在獲取該公司10%的股份,并考慮將阿里云作為其首要推理算力平臺(tái)。此消息一出,立即引起了市場(chǎng)的廣泛關(guān)注和熱議
    的頭像 發(fā)表于 02-10 09:10 ?529次閱讀

    阿里巴巴否認(rèn)投資DeepSeek

    近日,有傳聞稱(chēng)阿里巴巴計(jì)劃以100億美元的估值,投資10億美元認(rèn)購(gòu)中國(guó)AI初創(chuàng)企業(yè)DeepSeek的10%股權(quán)。然而,阿里高管顏喬迅速對(duì)此進(jìn)行了否認(rèn),他表示:“同為中國(guó)杭州企業(yè),我們?yōu)镈eepSeek的成就鼓掌,但外界流傳的阿里
    的頭像 發(fā)表于 02-08 16:47 ?614次閱讀

    阿里巴巴出售高鑫零售股權(quán),聚焦核心業(yè)務(wù)

    近日,阿里巴巴集團(tuán)正式對(duì)外發(fā)布公告,宣布其子公司及New Retail與德弘資本達(dá)成了一項(xiàng)重要協(xié)議。根據(jù)該協(xié)議,阿里巴巴將出售其所持有的高鑫零售全部股權(quán),這些股權(quán)合計(jì)占高鑫零售已發(fā)行股份總數(shù)的約
    的頭像 發(fā)表于 01-02 10:54 ?423次閱讀

    阿里巴巴74億出售銀泰百貨予雅戈?duì)?/a>

    近日,電子商務(wù)巨頭阿里巴巴集團(tuán)宣布了一項(xiàng)重大決策,決定將旗下銀泰百貨的全部股權(quán)轉(zhuǎn)讓給由雅戈?duì)柤瘓F(tuán)與銀泰管理團(tuán)隊(duì)聯(lián)合組成的財(cái)團(tuán)。這一消息引起了業(yè)界的廣泛關(guān)注。 據(jù)悉,此次交易涉及的金額高達(dá)74億元
    的頭像 發(fā)表于 12-18 10:04 ?422次閱讀

    阿里巴巴將在美國(guó)推出AI電商工具PIC COPILOT

    近日,中國(guó)電商巨頭阿里巴巴集團(tuán)即將在美國(guó)市場(chǎng)推出一款全新的人工智能電子商務(wù)工具,命名為“PIC COPILOT”。這一消息引起了業(yè)界的廣泛關(guān)注與期待。 據(jù)悉,PIC COPILOT是阿里巴巴
    的頭像 發(fā)表于 12-06 10:52 ?980次閱讀

    阿里巴巴整合電商資源,成立全新電商事業(yè)群

    近日,阿里巴巴集團(tuán)迎來(lái)了一項(xiàng)重大組織調(diào)整。集團(tuán)CEO吳泳銘通過(guò)內(nèi)部郵件正式宣布,將整合國(guó)內(nèi)和海外電商業(yè)務(wù),成立全新的電商事業(yè)群。這一決策標(biāo)志著阿里巴巴在電商領(lǐng)域的一次重要戰(zhàn)略部署。 據(jù)悉,新的電商事
    的頭像 發(fā)表于 11-22 10:51 ?466次閱讀

    阿里巴巴國(guó)際站首推全流程AI產(chǎn)品

    近日,阿里巴巴國(guó)際站正式推出了其首個(gè)全流程AI產(chǎn)品——AI生意助手2.0。這一創(chuàng)新產(chǎn)品的問(wèn)世,標(biāo)志著阿里巴巴在助力中小企業(yè)外貿(mào)經(jīng)營(yíng)方面邁出了重要一步。
    的頭像 發(fā)表于 10-30 16:12 ?697次閱讀

    阿里巴巴云計(jì)算入股蘇州語(yǔ)靈人工智能科技公司

    近日,國(guó)內(nèi)云計(jì)算巨頭阿里巴巴云計(jì)算有限公司(簡(jiǎn)稱(chēng)“阿里云”)在人工智能領(lǐng)域的布局再下一城,宣布入股蘇州語(yǔ)靈人工智能科技有限公司(簡(jiǎn)稱(chēng)“蘇州語(yǔ)靈”)。這一戰(zhàn)略投資動(dòng)作,不僅彰顯了阿里云對(duì)AI技術(shù)創(chuàng)新的深度關(guān)注,也預(yù)示著雙方將在智能
    的頭像 發(fā)表于 08-30 18:03 ?2573次閱讀

    阿里巴巴完成雙重主要上市

    8月28日阿里巴巴在香港聯(lián)交所主板主要上市,成為在港交所、紐交所雙重主要上市的公司。如今,阿里巴巴完成雙重主要上市。 此外,有投資機(jī)構(gòu)認(rèn)為阿里巴巴最快有望于9月份就納入港股通。 截至8月28日收盤(pán),
    的頭像 發(fā)表于 08-29 16:06 ?582次閱讀

    阿里巴巴季報(bào)出爐 阿里云二季度營(yíng)收增長(zhǎng)6%

    阿里巴巴季報(bào)出爐我們一起來(lái)圍觀一下,根據(jù)阿里巴巴集團(tuán)發(fā)布的截至2024年6月30日的第二季度經(jīng)營(yíng)業(yè)績(jī)數(shù)據(jù)顯示,阿里巴巴該季度營(yíng)收達(dá)到2432.4億元,而上年同期營(yíng)收2341.56億元,同比增4%;經(jīng)
    的頭像 發(fā)表于 08-16 16:45 ?731次閱讀

    阿里巴巴AI賦能海外擴(kuò)張新篇章

    中國(guó)電商巨頭阿里巴巴集團(tuán)正積極重啟并加速其海外擴(kuò)張戰(zhàn)略,以應(yīng)對(duì)國(guó)內(nèi)電商市場(chǎng)競(jìng)爭(zhēng)加劇的挑戰(zhàn)。此次擴(kuò)張的一大亮點(diǎn)在于,阿里巴巴將人工智能(AI)技術(shù)深度融入其國(guó)際業(yè)務(wù)布局中,開(kāi)啟了海外發(fā)展的新篇章。
    的頭像 發(fā)表于 07-12 17:56 ?1304次閱讀