女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

采用阿里云倚天實(shí)例g8y對(duì)深度學(xué)習(xí)推理性能進(jìn)行測(cè)試和比較

jf_9aVl32Dp ? 來(lái)源:阿里云開(kāi)發(fā)者社區(qū) ? 作者:彈性計(jì)算-百曉生 ? 2022-11-25 10:33 ? 次閱讀

簡(jiǎn)介:本次實(shí)測(cè)涵蓋圖像分類識(shí)別、圖像目標(biāo)檢測(cè)、自然語(yǔ)言處理以及搜索推薦等四種常見(jiàn)的深度學(xué)習(xí)推理場(chǎng)景

近幾年,深度學(xué)習(xí)在視覺(jué)、自然語(yǔ)言處理、搜索廣告推薦等工業(yè)界的各個(gè)領(lǐng)域廣泛落地。深度學(xué)習(xí)模型參數(shù)量的指數(shù)級(jí)上升、以及新的業(yè)務(wù)對(duì)復(fù)雜模型的需求,都要求云廠商的彈性計(jì)算能夠降低算力成本、提高計(jì)算效率,尤其是深度學(xué)習(xí)的推理,將會(huì)成為優(yōu)化的重點(diǎn)。在此因素影響下,阿里云平頭哥團(tuán)隊(duì)推出了全球首個(gè)5nm 制程的 ARM Server 芯片倚天710。該芯片基于 ARM Neoverse N2 架構(gòu),支持最新的 ARMv9 指令集,其中包括 i8mm,bf16等擴(kuò)展指令集,能在科學(xué)/AI計(jì)算領(lǐng)域獲得性能優(yōu)勢(shì)。

在本文中,我們聚焦于采用倚天710芯片的 ECS倚天實(shí)例g8y,對(duì)深度學(xué)習(xí)推理任務(wù)的性能進(jìn)行了測(cè)試和比較。

01 Workloads

本次分析,我們選擇了四種常見(jiàn)的深度學(xué)習(xí)推理場(chǎng)景,涵蓋圖像分類識(shí)別、圖像目標(biāo)檢測(cè)、自然語(yǔ)言處理以及搜索推薦領(lǐng)域。所使用的代表性模型如下:

Area Task Model
Vision Image Classification Resnet50-v1.5 and VGG19
Vision Object Detection SSD-Resnet34
Language Natural Language Processing BERT-Large
Recommendation Click-Through Rate Prediction DIN

02 Platforms

實(shí)例類型

我們?cè)诎⒗镌苾煞N實(shí)例類型上進(jìn)行測(cè)試,分別是ECS g8y(倚天710) 和 ECS g7(Ice Lake),實(shí)例均為 8-vCPU

Deep Learning Framework

在所有平臺(tái),我們使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 設(shè)備上,TensorFlow 支持兩種后端,我們使用 OneDNN 后端。OneDNN 是一個(gè)開(kāi)源的跨平臺(tái)深度學(xué)習(xí)庫(kù),并且能夠集成 Arm Compute Library(Arm設(shè)備的機(jī)器學(xué)習(xí)計(jì)算庫(kù))。在 Arm 設(shè)備上使用該后端能夠取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是實(shí)驗(yàn)版本,因此在 PyTorch 框架上使用默認(rèn)的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一種浮點(diǎn)數(shù)表示形式,其指數(shù)位與單精度浮點(diǎn)數(shù)(IEEE FP32)保持一致,但是小數(shù)位只有 7 位,因此 BF16 的表示范圍與 FP32 幾乎一致,但是精度較低。BF16 非常適合深度學(xué)習(xí),因?yàn)橥ǔ>认陆挡⒉粫?huì)顯著降低模型的預(yù)測(cè)精度,但是16位的數(shù)據(jù)格式卻能夠節(jié)省空間、加速計(jì)算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令,大幅提升了深度學(xué)習(xí)模型的推理性能,在多個(gè)場(chǎng)景下跑出了比 g7 更優(yōu)秀的數(shù)據(jù)。此外,倚天 710 作為自研芯片,相比 g7 最大有 30% 的價(jià)格優(yōu)勢(shì)。

下面四幅圖分別是 Resnet50,SSD,BERT 和 DIN 模型下的對(duì)比結(jié)果,其中,Resnet,SSD 和 BERT 都來(lái)自 MLPerf Inference Benchmark 項(xiàng)目,DIN 是 alibaba 提出的點(diǎn)擊率預(yù)測(cè)模型。藍(lán)色柱狀條是直接性能對(duì)比,橙色柱狀條是考慮了單位價(jià)格的性能對(duì)比,例如在 Resnet50 上,g8y 的性能是 g7 的 1.43倍,單位價(jià)格的性能是 g7 的 2.05 倍。

b3637baa-6c03-11ed-8abf-dac502259ad0.png

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能對(duì)比圖

說(shuō)明:此處設(shè)置 Batch Size = 32,測(cè)試圖像尺寸為 224 * 224

b3a2567c-6c03-11ed-8abf-dac502259ad0.png

Figure 2: SSD 性能對(duì)比圖

說(shuō)明:此處 Batch Size = 1,測(cè)試圖像尺寸為1200 * 1200

b3bdb886-6c03-11ed-8abf-dac502259ad0.png

Figure 3: BERT 性能對(duì)比圖

b3dae80c-6c03-11ed-8abf-dac502259ad0.png

Figure 4: DIN 性能對(duì)比圖

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是實(shí)驗(yàn)性質(zhì),因此本次實(shí)驗(yàn)采用默認(rèn)的 OpenBLAS 后端。OpenBLAS 是一個(gè)開(kāi)源的線性代數(shù)庫(kù),我們?yōu)槠涮砑恿酸槍?duì) Arm Neoverse N2 的 BFloat16 矩陣乘法計(jì)算的優(yōu)化實(shí)現(xiàn)。

OpenBLAS BFloat16 矩陣乘法優(yōu)化

矩陣乘法和深度學(xué)習(xí)存在非常緊密的關(guān)系,例如深度學(xué)習(xí)中常見(jiàn)的 Fully Connected Layer,Convolutional Layer等,最終是被轉(zhuǎn)換成矩陣乘法實(shí)現(xiàn)的。因此,加速矩陣乘法最終能加速模型的計(jì)算。

OpenBLAS 是一個(gè)廣泛使用的計(jì)算庫(kù),默認(rèn)作為 Numpy,PyTorch 等庫(kù)的后端,我們?cè)谡{(diào)研中發(fā)現(xiàn)該庫(kù)不支持倚天 710 的 bf16 指令擴(kuò)展,在和社區(qū)交流后,我們決定利用倚天 710 支持的 BFMMLA 等向量指令實(shí)現(xiàn)支持 bf16 數(shù)據(jù)格式的矩陣乘法,實(shí)現(xiàn)后性能的到大幅提升,性能對(duì)比如圖 5 所示。該實(shí)現(xiàn)目前已經(jīng)貢獻(xiàn)給開(kāi)源社區(qū),OpenBLAS 的最新版本 0.3.21 也已經(jīng)合入。

b3fcf8c0-6c03-11ed-8abf-dac502259ad0.png

Figure5: OpenBLAS 矩陣乘法性能對(duì)比

說(shuō)明:參與運(yùn)算的矩陣的行數(shù)和列數(shù)均為 1000。

PyTorch CNN Performance

OpenBLAS 作為 PyTorch 的默認(rèn)后端,在矩陣乘法上的優(yōu)化可以體現(xiàn)在 PyTorch 實(shí)現(xiàn)的深度學(xué)習(xí)模型中,我們以卷積計(jì)算占比較高的模型 VGG19 為例,該模型推理時(shí),所有的卷積算子會(huì)被轉(zhuǎn)換為矩陣乘法,并調(diào)用 OpenBLAS 完成計(jì)算。下圖是 VGG 19 的性能對(duì)比:

b41e7e28-6c03-11ed-8abf-dac502259ad0.png

Figure 6: VGG19性能對(duì)比圖

05 結(jié)論

本文的分析顯示,在阿里云倚天實(shí)例g8y上,多個(gè)深度學(xué)習(xí)模型的推理性能高于同規(guī)格 g7,這主要得益于 Arm Neoverse N2 的新指令以及不斷更新的軟件支持(OneDNN、ACL 和 OpenBLAS)。在這個(gè)過(guò)程中,阿里云編譯器團(tuán)隊(duì)貢獻(xiàn)了一部分軟件優(yōu)化,后續(xù)我們將繼續(xù)關(guān)注該領(lǐng)域的軟硬件優(yōu)化,提高 Arm 系列實(shí)例在 ML/AI 方面的競(jìng)爭(zhēng)力。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    459

    文章

    52119

    瀏覽量

    435621
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9298

    瀏覽量

    374760
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5554

    瀏覽量

    122443

原文標(biāo)題:性能最高提升50%,ECS倚天實(shí)例深度學(xué)習(xí)推理性能實(shí)測(cè)

文章出處:【微信號(hào):Arm軟件開(kāi)發(fā)者,微信公眾號(hào):Arm軟件開(kāi)發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?608次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性能</b>

    阿里ECS g9i全球邀測(cè)啟動(dòng)

    今日,在備受矚目的阿里國(guó)際開(kāi)發(fā)者大會(huì)上,阿里正式向全球用戶推出了其第9代企業(yè)級(jí)實(shí)例——ECS g
    的頭像 發(fā)表于 01-22 15:14 ?459次閱讀

    華為彈性服務(wù)器 FlexusX 實(shí)例下的 Nginx 性能測(cè)試

    的 Nginx 性能測(cè)試。 ? 一、華為彈性服務(wù)器 FlexusX 實(shí)例簡(jiǎn)介 華為彈性
    的頭像 發(fā)表于 01-17 09:17 ?775次閱讀
    華為<b class='flag-5'>云</b>彈性<b class='flag-5'>云</b>服務(wù)器 FlexusX <b class='flag-5'>實(shí)例</b>下的 Nginx <b class='flag-5'>性能</b><b class='flag-5'>測(cè)試</b>

    服務(wù)器 Flexus X 實(shí)例,鏡像切換與服務(wù)器壓力測(cè)試

    服務(wù)器 Flexus X 壓力測(cè)試 1、購(gòu)買華為 Flexus X 實(shí)例 Flexus服務(wù)器X實(shí)例
    的頭像 發(fā)表于 01-03 09:23 ?349次閱讀
    <b class='flag-5'>云</b>服務(wù)器 Flexus X <b class='flag-5'>實(shí)例</b>,鏡像切換與服務(wù)器壓力<b class='flag-5'>測(cè)試</b>

    采用華為 Flexus 服務(wù)器 X 實(shí)例部署 YOLOv3 算法完成目標(biāo)檢測(cè)

    一、前言 1.1 開(kāi)發(fā)需求 這篇文章講解:?采用華為最新推出的 Flexus 服務(wù)器 X 實(shí)例部署 YOLOv3 算法,完成圖像分析、目標(biāo)檢測(cè)。 隨著計(jì)算機(jī)視覺(jué)技術(shù)的飛速發(fā)展,
    的頭像 發(fā)表于 01-02 12:00 ?427次閱讀
    <b class='flag-5'>采用</b>華為<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服務(wù)器 X <b class='flag-5'>實(shí)例</b>部署 YOLOv3 算法完成目標(biāo)檢測(cè)

    華為 X 實(shí)例 CPU 性能測(cè)試詳解與優(yōu)化策略

    引言 ? 1. 測(cè)試環(huán)境搭建 ? 1.1 測(cè)試實(shí)例的選擇 ? 1.2 CPU性能測(cè)試工具介紹 ? 1.3 安裝和配置Sysbench ? 2
    的頭像 發(fā)表于 12-30 14:52 ?533次閱讀
    華為<b class='flag-5'>云</b> X <b class='flag-5'>實(shí)例</b> CPU <b class='flag-5'>性能</b><b class='flag-5'>測(cè)試</b>詳解與優(yōu)化策略

    使用 Memtester 對(duì)華為 X 實(shí)例進(jìn)行內(nèi)存性能測(cè)試

    前言 ? 1 華為X實(shí)例介紹 ? 2 Memtester 簡(jiǎn)介 ? 2.1 什么是Memtester ? 2.2 安裝 Memtester ? 3 測(cè)試方案設(shè)計(jì) ? 3.1 測(cè)試目標(biāo)
    的頭像 發(fā)表于 12-30 14:52 ?393次閱讀
    使用 Memtester 對(duì)華為<b class='flag-5'>云</b> X <b class='flag-5'>實(shí)例</b><b class='flag-5'>進(jìn)行</b>內(nèi)存<b class='flag-5'>性能</b><b class='flag-5'>測(cè)試</b>

    華為Flexus X實(shí)例,Redis性能加速評(píng)測(cè)及對(duì)比

    加速 Redis 的選項(xiàng)。本文旨在通過(guò)實(shí)際測(cè)試,展示華為 Flexus X 實(shí)例在加速 Redis 方面的性能優(yōu)勢(shì),并與其他業(yè)界 U1 實(shí)例
    的頭像 發(fā)表于 12-29 15:47 ?414次閱讀
    華為<b class='flag-5'>云</b>Flexus X<b class='flag-5'>實(shí)例</b>,Redis<b class='flag-5'>性能</b>加速評(píng)測(cè)及對(duì)比

    華為 Flexus X 實(shí)例 MySQL 性能加速評(píng)測(cè)及對(duì)比

    X 實(shí)例加速 MySQL 測(cè)試 7 3.1 sysbench 簡(jiǎn)介 8 3.2?Flexus 服務(wù)器 X 實(shí)例安裝 sysbench
    的頭像 發(fā)表于 12-25 17:10 ?476次閱讀
    華為<b class='flag-5'>云</b> Flexus X <b class='flag-5'>實(shí)例</b> MySQL <b class='flag-5'>性能</b>加速評(píng)測(cè)及對(duì)比

    Flexus X 實(shí)例 CPU、內(nèi)存及磁盤性能實(shí)測(cè)與分析

    的網(wǎng)絡(luò)帶寬支持。最近華為 828 B2B 企業(yè)節(jié)正在舉辦,F(xiàn)lexus X 實(shí)例的促銷也非常給力,大家可以去看看。為了幫助用戶更好地了解其性能表現(xiàn),我們通過(guò)一系列詳盡的測(cè)試,對(duì) Fl
    的頭像 發(fā)表于 12-24 17:35 ?513次閱讀

    阿里開(kāi)源推理大模型QwQ

    近日,阿里通義團(tuán)隊(duì)宣布推出全新AI推理模型QwQ-32B-Preview,并同步實(shí)現(xiàn)了開(kāi)源。這一舉措標(biāo)志著阿里在AI
    的頭像 發(fā)表于 11-29 11:30 ?990次閱讀

    基于哪吒開(kāi)發(fā)板部署YOLOv8模型

    開(kāi)發(fā)板的推理性能,同時(shí)測(cè)試所推出的 OpenVINO C# API (https://github.com/guojin-yan/OpenVINO-CSharp-API) 項(xiàng)目能否應(yīng)用到該開(kāi)發(fā)板上,我們使用該開(kāi)發(fā)板,結(jié)合 OpenVINO C# API 的異步
    的頭像 發(fā)表于 11-15 14:13 ?954次閱讀
    基于哪吒開(kāi)發(fā)板部署YOLOv<b class='flag-5'>8</b>模型

    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    近期,第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過(guò)了中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測(cè)試(AISBench)。英特爾成為首批通過(guò)AISBench大語(yǔ)言模型(LLM)推理性能測(cè)試
    的頭像 發(fā)表于 09-06 15:33 ?677次閱讀
    開(kāi)箱即用,AISBench<b class='flag-5'>測(cè)試</b>展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

    學(xué)習(xí)框架,它們各自擁有獨(dú)特的特點(diǎn)和優(yōu)勢(shì)。本文將從背景介紹、核心特性、操作步驟、性能對(duì)比以及選擇指南等方面對(duì)TensorFlow和PyTorch進(jìn)行詳細(xì)比較,以幫助讀者了解這兩個(gè)框架的優(yōu)
    的頭像 發(fā)表于 07-02 14:04 ?1480次閱讀

    學(xué)習(xí)筆記|如何移植NCNN

    隊(duì)的步伐,揭秘他們?nèi)绾?b class='flag-5'>進(jìn)行NCNN的交叉編譯,并在ELF1開(kāi)發(fā)板上演繹實(shí)踐,以此驗(yàn)證模型推理性能。1、從GitHub下載NCNN源碼:https://github.c
    的頭像 發(fā)表于 05-29 10:06 ?1373次閱讀
    <b class='flag-5'>學(xué)習(xí)</b>筆記|如何移植NCNN