女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

英特爾AVX-512VNNI技術解析

科技見聞網(wǎng) ? 來源:科技見聞網(wǎng) ? 作者:科技見聞網(wǎng) ? 2022-03-31 14:08 ? 次閱讀

英特爾AVX-512VNNI技術解析

高級矢量擴展指令集(AdvancedVector ExtensionsAVX)是x86架構微處理器中的SIMD指令集。英特爾AVX-512顧名思義寄存器位寬是512b,可以支持16路32b單精度浮點數(shù)或64路8b整型數(shù)。

英特爾至強可擴展處理器通過英特爾深度學習加速(英特爾DLBoost)進一步提升了AI計算性能。英特爾深度學習加速包含英特爾AVX-512VNNI(VectorNeural Network Instructions),是對標準英特爾AVX-512指令集的擴展。

如何理解英特爾AVX-512技術,還要從SIMD指令集說起。SIMD是單指令流多數(shù)據(jù)流操作(SingleInstruction Stream, Multiple Data Stream)的縮寫,相對應的是SISD單指令流單數(shù)據(jù)流(SingleInstruction Stream, Single Data Stream)。相較于傳統(tǒng)的單指令單數(shù)據(jù)指令,SIMD指令使得一條指令可以完成多組數(shù)據(jù)的操作。單指令單數(shù)據(jù)流和單指令多數(shù)據(jù)流區(qū)別如下圖所示:

英特爾AVX-512VNNI技術解析

英特爾AVX指令集的前世今生

英特爾AVX-512VNNI技術解析

英特爾最早發(fā)布的SIMD指令集是MMX指令集:

1996年,英特爾發(fā)布了基于新版P55C架構的PentiumMMX系列處理器,其中引入了新的MMX指令集,開始支持SIMD。PentiumMMX系列處理器上新引入的MMX指令集開創(chuàng)了x86處理器支持SIMD操作的先河,該指令集定義了8個64-bit寬度的寄存器,每個寄存器的64-bit容量中可以放入八個8-bit長度的整數(shù)或四個16-bit長度整數(shù)或兩個32-bit整數(shù),CPU在識別到MMX指令集的新指令時會自動將寄存器中的數(shù)據(jù)進行分割計算,這樣一來,單個指令就成功操作了多個數(shù)據(jù),實現(xiàn)了SIMD。

英特爾AVX-512指令集實際上分成不同的擴展,用來實現(xiàn)不同的操作。具體的擴展如下:

AVX-512 Foundation

AVX-512 Conflict Detection Instructions (CD)

AVX-512 Exponential and Reciprocal Instructions (ER)

AVX-512 Prefetch Instructions (PF)

AVX-512 Vector Length Extensions (VL)

AVX-512 Byte and Word Instructions (BW)

AVX-512 Doubleword and Quadword Instructions (DQ)

AVX-512 Integer Fused Multiply Add (IFMA)

AVX-512 Vector Byte Manipulation Instructions (VBMI)

AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW)

AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS)

VPOPCNTDQ

VPCLMULQDQ

AVX-512 Vector Neural Network Instructions (VNNI)

AVX-512 Galois Field New Instructions (GFNI)

AVX-512 Vector AES instructions (VAES)

AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2)

AVX-512 Bit Algorithms (BITALG)

AVX-512 Bfloat16 Floating-Point Instructions (BF16)

AVX-512 Half-Precision Floating-Point Instructions (FP16)

通過以上這些指令集擴展,讓英特爾至強可擴展處理器家族在音視頻處理、游戲、科學計算、數(shù)據(jù)加密壓縮以及深度學習等場景中擁有了出色的表現(xiàn)。

英特爾AVX-512VNNI(VectorNeural Network Instructions)

英特爾AVX-512VNNI(VectorNeural NetworkInstructions)是英特爾深度學習加速一項重要的內(nèi)容,也是對標準英特爾AVX-512指令集的擴展。可以將三條指令合并成一條指令執(zhí)行,更進一步的發(fā)揮新一代英特爾至強可擴展處理器的計算潛能,提升INT8模型的推理性能。目前第2代和第3代英特爾至強可擴展處理器均支持英特爾VNNI。

未使用VNNI的平臺需要vpmaddubsw、vpmaddwd和vpaddd指令才能完成INT8卷積運算中的乘累加:

英特爾AVX-512VNNI技術解析

而擁有VNNI的平臺上則可以使用一條指令vpdpbusd完成INT8卷積操作:

英特爾AVX-512VNNI技術解析

英特爾深度學習加速VNNI加速推薦系統(tǒng)中的矢量召回

下面介紹一個具體的使用場景:英特爾深度學習加速VNNI加速推薦系統(tǒng)中的矢量召回。

眾所周知,推薦系統(tǒng)需要解決的問題是:如何為既定用戶生成一個長度為K的推薦列表,并使該推薦列表盡量(高準確性)、盡快(低延遲)地滿足用戶的興趣和需求?常規(guī)的推薦系統(tǒng)包含兩部分:矢量召回(vectorrecall)和重排(ranking)。前者從龐大的推薦池里粗篩出當前用戶最可能感興趣的幾百或幾千條內(nèi)容,并將結果交由后者的排序模塊進一步排序,得到最終推薦結果。

英特爾AVX-512VNNI技術解析

矢量召回可以轉換成高緯度的矢量相似性搜索問題。HNSW(HierarchicalNavigable Small World)算法是基于圖結構的ANN(ApproximateNearest Neighbor)矢量相似度搜索算法之一,也是速度最快精度最高的算法之一。

英特爾AVX-512VNNI技術解析

矢量原始數(shù)據(jù)的數(shù)據(jù)類型常常是FP32。對于很多業(yè)務(如圖片檢索),矢量數(shù)據(jù)是可以用INT8/INT16表示而且量化誤差對最終搜集結果影響有限。這時可以使用VNNI intrinsic 指令實現(xiàn)矢量INT8/INT16 的內(nèi)積計算。大量實驗表明QPS性能有較大的提升,而且召回率幾乎不變。QPS提升的原因一方面是 INT8/INT16訪問帶寬比 FP32少很多,另一方面距離計算部分由于使用 VNNI指令得以加速。

當數(shù)據(jù)集比較大時(如1億到10億數(shù)據(jù)量級范圍),傳統(tǒng)的做法是將數(shù)據(jù)集切片,變成幾個較小的數(shù)據(jù)集,每個數(shù)據(jù)集單獨獲取topK,最后再合并。由于增加了多個機器之間的通信,增加延遲的同時降低了QPS。在大數(shù)據(jù)集上使用HNSW方案的最佳實踐是:盡量不切片,在完整的數(shù)據(jù)集上建立索引和執(zhí)行搜索,可獲得最佳性能。當數(shù)據(jù)集過大,內(nèi)存空間不夠時,可以考慮使用英特爾傲騰持久內(nèi)存解決。

Super-FusedBERT技術解析

BERT介紹

BERT(BidirectionalEncoder Representations fromTransformers,基于變換器的雙向編碼器表示技術)是2018年谷歌公司提出的NLP(Naturallanguageprocessing,自然語言處理)學科的新技術。谷歌正在利用BERT來更好地理解用戶搜索語句的語義。2020年的一項文獻調查得出結論:“在一年多一點的時間里,BERT已經(jīng)成為NLP實驗中無處不在的基線”,算上分析和改進模型的研究出版物超過150篇。

BERT的創(chuàng)新點在于它將雙向Transformer用于語言模型,之前的模型是從左向右輸入一個文本序列,或者將left-to-right和right-to-left的訓練結合起來。實驗的結果表明,雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻,BERT使用了一種新技術叫做MaskedLM(MLM),在這個技術出現(xiàn)之前是無法進行雙向語言模型訓練的。

英特爾AVX-512技術加速新浪廣告業(yè)務

通過使用英特爾AVX-512實現(xiàn)Super-FusedBert優(yōu)化方案

一、利用Intel MKL高性能數(shù)學庫

MKL是Intel發(fā)布的高性能數(shù)學庫,適用于科學計算,工程和金融領域。經(jīng)過多年的打磨,MKL已經(jīng)是x86平臺上性能最好的數(shù)學庫之一。借助MKL可以最大限度的發(fā)揮出Xeon處理器的硬件性能,幫助加速Bert模型的推理。

英特爾AVX-512VNNI技術解析

圖 MKL高性能數(shù)學庫

深度學習模型中存在大量矩陣乘法(GEMM)這種計算密集操作,可以直接使用MKL的cblas_sgemm接口。

此外,MKL還提供了一種新的GEMM接口,叫PackedAPI。這種API可以對輸入的矩陣進行預處理(Pack),進一步提高GEMM的效率。

英特爾AVX-512VNNI技術解析

圖 MKLPacked API性能曲線

對于Bert模型,在其推理時權重是固定的,因此可以對權重進行重排,使用MKL的PackedAPI進行模型推理加速。

二、利用Intel oneDNN開源深度學習加速庫

oneDNN是Intel開源的深度學習加速庫,同樣可以支持不同的計算設備,如CPU,GPU等。oneDNN抽象了以下幾個概念:

Primitive:一種DNN算子的底層原語,支持matmul,convolution等。

Memory:對Primitive使用的內(nèi)存的抽象,存在多種布局,不同的內(nèi)存布局也會影響

Primitive:的執(zhí)行效率。

Engine:底層計算設備抽象,可支持 CPU, GPU。

Stream:Engine中Primitive的隊列。

英特爾AVX-512VNNI技術解析

圖 oneDNN結構

oneDNN中支持了大量常用的深度學習算子。Bert中使用的softmax,layernorm,gelu也都在oneDNN的Primitive中找到相應的實現(xiàn)。

三、使用AVX-512技術進行算子融合

在深度學習框架中,一個模型由多個算子組成,這些算子執(zhí)行都服從深度學習中調度器的調度。冗余的算子會增加調度開銷,進而影響執(zhí)行效率。并且算子實現(xiàn)中可能還有很多不必要的訪存和內(nèi)存分配。因此在針對推理的優(yōu)化中,減少算子數(shù)量非常必要。

英特爾AVX-512VNNI技術解析

圖 算子融合示意圖

除此之外,深度學習模型中,計算密集的算子(matmul,conv)后面會跟一個element-wise的操作(激活函數(shù)relu)。這些element-wise的操作可以在計算密集算子計算的過程中完成,而不必等到計算密集算子完全計算完后再進行。這種優(yōu)化也叫算子融合。

在Bert模型中,matmul,biasadd,gelu的組合可以使用oneDNN的matmulprimitive算子結合追加post_op來完成。

oneDNN的matmulprimitive可以進行多維tensor的乘法操作,并附加融合bias加法。

四、訪存優(yōu)化

由于CPU架構的特點,越靠近CPU的存儲越快,體積越小。因此高效利用緩存對程序性能非常重要。

英特爾AVX-512VNNI技術解析

圖 CPUcache結構示意圖

這就要求算子在實現(xiàn)的過程中能夠盡可能減少內(nèi)存占用,進而減少cache的換出,提高cache利用率。

在Bert的self-attention中,對于q、k、v的計算中存在轉置操作。通過下圖可以清楚的看到,每一個q、k、v在經(jīng)過一個線性層后,都會按照head進行split并轉置。在self-attention最后和v進行點積后,還需要一個轉置來擺放數(shù)據(jù)。

英特爾AVX-512VNNI技術解析

圖self-attention圖結構

其實通過分析圖結構的計算流程,我們可以將上面的轉置消除。如下圖,原來的數(shù)據(jù)是按紅色方框的方式存放,但是BatchMatmul需要用到的數(shù)據(jù)位于綠色方塊中。因此我們可以使用MKL的batch_sgemm接口,將參數(shù)stride指定為64*12。這樣就可以避免轉置帶來的內(nèi)存占用和訪存開銷。

英特爾AVX-512VNNI技術解析

圖消除self-attention轉置

性能優(yōu)化數(shù)據(jù)

在Intel第三代Xeon處理器IceLake8358P上,我們對Super-FusedBert進行了性能測試:

Bertbase model 參數(shù):

英特爾AVX-512VNNI技術解析

數(shù)據(jù)對比:

英特爾AVX-512VNNI技術解析

通過數(shù)據(jù)對比分析,經(jīng)過優(yōu)化后的Bert-base模型在第三代Xeon處理器IceLake8358P比優(yōu)化前節(jié)省了大約四分之三的時長,分別從40ms優(yōu)化到10.5ms、43ms優(yōu)化到9.2ms。

這種優(yōu)化對于滿足實時在線服務推理的延遲要求有著十分顯著的作用,有利于業(yè)務部門搭建基于Bert模型的業(yè)務,提高了集群中CPU利用率。

*實際性能受使用情況、配置和其他因素的差異影響。更多信息請見www.Intel.com/PerformanceIndex性能測試結果基于配置信息中顯示的日期進行測試,且可能并未反映所有公開可用的更新。

詳情請參閱配置信息披露。沒有任何產(chǎn)品或組件是絕對安全的。

英特爾技術可能需要啟用硬件、軟件或激活服務。

具體成本和結果可能不同。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10168

    瀏覽量

    173932
  • 微處理器
    +關注

    關注

    11

    文章

    2371

    瀏覽量

    83851
  • 指令集
    +關注

    關注

    0

    文章

    228

    瀏覽量

    23712
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    世紀大并購!傳高通有意整體收購英特爾,英特爾最新回應

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)9月21日,《華爾街日報》發(fā)布博文稱,高通公司有意整體收購英特爾公司,而不是僅僅收購芯片設計部門。“最近幾天,高通已經(jīng)接觸了芯片制造商英特爾?!眻蟮婪Q,這筆交易還遠未
    的頭像 發(fā)表于 09-22 05:21 ?3527次閱讀
    世紀大并購!傳高通有意整體收購<b class='flag-5'>英特爾</b>,<b class='flag-5'>英特爾</b>最新回應

    請問OpenVINO?工具套件英特爾?Distribution是否與Windows? 10物聯(lián)網(wǎng)企業(yè)版兼容?

    無法在基于 Windows? 10 物聯(lián)網(wǎng)企業(yè)版的目標系統(tǒng)上使用 英特爾? Distribution OpenVINO? 2021* 版本推斷模型。
    發(fā)表于 03-05 08:32

    英特爾?獨立顯卡與OpenVINO?工具套件結合使用時,無法運行推理怎么解決?

    使用英特爾?獨立顯卡與OpenVINO?工具套件時無法運行推理
    發(fā)表于 03-05 06:56

    英特爾推出全新英特爾銳炫B系列顯卡

    備受玩家青睞的價格提供卓越的性能與價值1,很好地滿足現(xiàn)代游戲需求,并為AI工作負載提供加速。其配備的英特爾Xe矩陣計算引擎(XMX),為新推出的XeSS 2提供強大支持。XeSS 2的三項核心技術協(xié)同工作,共同提高性能表現(xiàn)、增強視覺流暢性并加快響應速度。 “ ? 全新
    的頭像 發(fā)表于 12-07 10:16 ?1331次閱讀
    <b class='flag-5'>英特爾</b>推出全新<b class='flag-5'>英特爾</b>銳炫B系列顯卡

    英特爾CEO Gelsinger宣布退休

    聯(lián)席首席執(zhí)行官,以確保公司的平穩(wěn)過渡。目前,英特爾的董事會正在積極尋找合適的人選,以填補這一重要職位的空缺。 Pat Gelsinger在英特爾度過了超過四十年的職業(yè)生涯,他的成長歷程堪稱傳奇。從最初的一名普通員工,他憑借出色的才華和不懈的努力,逐步晉升為首席
    的頭像 發(fā)表于 12-03 10:55 ?568次閱讀

    英特爾考慮出售Altera股權

    近日,英特爾(Intel)正積極尋求出售其可編程芯片制造子公司Altera的股權,并考慮引入戰(zhàn)略投資或PE投資。據(jù)悉,英特爾對Altera的估值約為170億美元,而英特爾于2015年以167億美元的價格收購了這家公司。
    的頭像 發(fā)表于 10-21 15:42 ?814次閱讀

    剛剛!英特爾最新回應

    10月17日消息,據(jù)環(huán)球時報報道,中國網(wǎng)絡空間安全協(xié)會發(fā)文,披露英特爾產(chǎn)品安全漏洞問題頻發(fā)、可靠性差、監(jiān)控用戶、暗設后門等問題,“建議啟動網(wǎng)絡安全審查”! 該協(xié)會表示,從2023年開始,英特爾CPU
    的頭像 發(fā)表于 10-17 17:35 ?545次閱讀
    剛剛!<b class='flag-5'>英特爾</b>最新回應

    英特爾至強品牌新戰(zhàn)略發(fā)布

    品牌是企業(yè)使命和發(fā)展的象征,也承載著產(chǎn)品特質和市場認可。在英特爾GTC科技體驗中心的英特爾 至強 6 能效核處理器發(fā)布會上,英特爾公司全球副總裁兼首席市場營銷官Brett Hannath宣布推出全新的
    的頭像 發(fā)表于 10-12 10:13 ?775次閱讀

    英特爾股票分析:英特爾的困境能否結束?

    來源:猛獸財經(jīng)?? 作者:猛獸財經(jīng) ? ? 猛獸財經(jīng)的核心觀點: (1)英特爾面臨的挑戰(zhàn):第一季度財報不及預期后股價下跌。 (2)猛獸財經(jīng)對英特爾股票的技術分析:短線交易者需謹慎,多頭頭寸等待突破
    的頭像 發(fā)表于 10-09 16:28 ?652次閱讀
    <b class='flag-5'>英特爾</b>股票分析:<b class='flag-5'>英特爾</b>的困境能否結束?

    面對高通收購,Apollo 50億美元投資,你該買入英特爾股票嗎?

    財經(jīng)認為高通收購英特爾大概率不會成功,而且英特爾將強烈反對。 (5)猛獸財經(jīng)對英特爾股票的技術分析:支撐位:19美元,阻力位:25美元。 Apollo將投資
    的頭像 發(fā)表于 09-25 16:34 ?478次閱讀
    面對高通收購,Apollo 50億美元投資,你該買入<b class='flag-5'>英特爾</b>股票嗎?

    曝Apollo擬向英特爾投資50億美元

    資產(chǎn)管理巨頭Apollo近日透露出對科技巨頭英特爾的濃厚興趣,計劃進行一筆高達50億美元的股權投資,這一數(shù)字約占英特爾當前市值(931.9億美元)的5.4%,彰顯了Apollo對英特爾戰(zhàn)略轉型藍圖的高度認可與信心。此消息為
    的頭像 發(fā)表于 09-24 11:38 ?557次閱讀

    英特爾IT的發(fā)展現(xiàn)狀和創(chuàng)新動向

    AI大模型的爆發(fā),客觀上給IT的發(fā)展帶來了巨大的機會。作為把IT發(fā)展上升為戰(zhàn)略高度的英特爾,自然在推動IT發(fā)展中注入了強勁動力。英特爾IT不僅專注于創(chuàng)新、AI和優(yōu)化,以及英特爾員工、最終用戶和
    的頭像 發(fā)表于 08-16 15:22 ?862次閱讀

    英特爾是如何實現(xiàn)玻璃基板的?

    。 雖然玻璃基板對整個半導體行業(yè)而言并不陌生,但憑借龐大的制造規(guī)模和優(yōu)秀的技術人才,英特爾將其提升到了一個新的水平。近日,英特爾封裝測試技術開發(fā)(Assembly Test Techn
    的頭像 發(fā)表于 07-22 16:37 ?581次閱讀

    英特爾攜手日企加碼先進封裝技術

    英特爾公司近日在半導體技術領域再有大動作,加碼先進封裝技術,并與14家日本企業(yè)達成深度合作。此次合作中,英特爾創(chuàng)新性地租用夏普閑置的LCD面板廠,將其作為先進半導體
    的頭像 發(fā)表于 06-11 09:43 ?581次閱讀

    英特爾CEO:AI時代英特爾動力不減

    英特爾CEO帕特·基辛格堅信,在AI技術的飛速發(fā)展之下,英特爾的處理器仍能保持其核心地位?;粮窆_表示,摩爾定律仍然有效,而英特爾在處理器和芯片
    的頭像 發(fā)表于 06-06 10:04 ?661次閱讀