亚洲欧美日韩精品色xxx,69AV在线视频老司机,野外CHINESE老妇

為了提升AI性能，AI芯片公司從多個方面進行優(yōu)化，包括采用更先進的工藝制程、進行架構(gòu)創(chuàng)新，數(shù)據(jù)類型的支持也是其中之一。如今，為了加速機器學(xué)習(xí)性能，Arm宣布將會采用Bfloat16數(shù)據(jù)類型，這種數(shù)據(jù)類型會成為主流嗎？

Arm Holdings宣布其ArmV8-A架構(gòu)的下一版本將支持bfloat16，這種浮點格式越來越多地用于加速機器學(xué)習(xí)應(yīng)用。如今，谷歌、英特爾和少數(shù)初創(chuàng)公司的芯片都選擇了支持bfloat16。

Bfloat16，又名16位腦浮點（brain floating point），由Google發(fā)明，最初在其第三代Tensor處理單元（TPU）中支持。英特爾認可以將bfloat16整合到其未來的“Cooper Lake”Xeon SP處理器，以及即將推出的“Spring Crest”神經(jīng)網(wǎng)絡(luò)處理器中。Wave Computing、Habana Labs和Flex Logix也采用了定制的AI處理器。

bfloat16的主要思想是提供16位浮點格式，其動態(tài)范圍與標準IEEE-FP32相同，但精度較低。相當于指數(shù)區(qū)和FP32保持了相同的8位，并將FP32分數(shù)字段的小數(shù)區(qū)縮減到到了7位。

根據(jù)Arm的ISA架構(gòu)師和Fellow Nigel Stephens的說法，大多數(shù)情況下，用戶在進行神經(jīng)網(wǎng)絡(luò)計算時，bfloat16格式與FP32一樣準確，但是以一半的位數(shù)完成任務(wù)。因此，與32位相比，采用bfloat16吞吐量可以翻倍，內(nèi)存需求可以減半。在大多數(shù)情況下，blfloat16可以成為這些機器學(xué)習(xí)算法中FP32的“插入式”替代品。“幸運的是，神經(jīng)網(wǎng)絡(luò)由于其統(tǒng)計性質(zhì)，只要數(shù)據(jù)類型具有足夠的范圍和精度，就可以很好地適應(yīng)少量噪聲，” Stephens告訴我們。

在Arm，附加支持將適用于ArmV8-A下支持的所有浮點指令集，即SVE（可擴展矢量擴展），AArch64 Neon（64位SIMD）和AArch32 Neon（32位SIMD））。附加支持旨在用于基于Arm的終端和服務(wù)器的機器學(xué)習(xí)推理和訓(xùn)練。雖然Arm服務(wù)器的規(guī)模仍然很小，但其終端市場規(guī)模巨大，這意味著未來的手持式和物聯(lián)網(wǎng)設(shè)備將很快能夠利用更緊湊的數(shù)字格式。

Stephens 8月份撰寫的一篇博客中寫到，將增加四條新指令來支持bfoat16值的乘法運算，這是用于訓(xùn)練和推理神經(jīng)網(wǎng)絡(luò)的最常用計算。據(jù)他介紹，在大多數(shù)情況下，應(yīng)用程序開發(fā)人員不會在底層代碼中添加這些指令，因為這些支持很可能由Arm自己的機器學(xué)習(xí)庫提供。對于那些對細節(jié)感興趣的人來說，這四條新指令如下：

BFDOT 是BF16元素的［1×2］×［2×1］點積，累積到SIMD結(jié)果中的每個IEEE-FP32元素中。

BFMMLA，包括兩個有效地 BFDOT 操作，執(zhí)行BF16元素的［2×4］×［4×2］矩陣乘法，累積到SIMD結(jié)果內(nèi)的每個［2×2］矩陣的IEEE-FP32元素中。

BFMLAL是偶數(shù)或奇數(shù)BF16元素的簡單乘積，累積到SIMD結(jié)果中的每個IEEE-FP32元素中。

BFCVT，將IEEE-FP32元素或標量值轉(zhuǎn)換為BF16格式。

在SVE中包含對bfloat16的支持特別有趣，因為這些向量指令是專門為高性能計算開發(fā)的。截至目前，唯一已知的實現(xiàn)SVE是富士通的A64FX芯片，這款處理器將為即將推出的Post-K超級計算機提供動力，該超級計算機現(xiàn)在名為Fugaku。但這還為時過早，無法獲得bfloat16的好處，但后來的那些，就像為歐洲處理器計劃（EPI）開發(fā)的Arm處理器肯定會包含它。

Stephens說，鑒于傳統(tǒng)HPC用戶對機器學(xué)習(xí)的興趣增加以及他們的高性能系統(tǒng)對訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的適應(yīng)性，在SVE中包含bfloat16似乎是一種自然的補充。他還指出，有一些HPC研究人員正在調(diào)查使用新的16位格式來加速傳統(tǒng)科學(xué)應(yīng)用的混合精度計算。

“再次強調(diào)，bfloat16的優(yōu)勢在于它具有與FP32相同的動態(tài)范圍，這使得使用FP 32的代碼，在轉(zhuǎn)換的早期階段使用bfloat16更容易。”他解釋說。

并且由于SVE可以針對不同的向量長度，實現(xiàn)從128位到2048位，理論上bfloat16吞吐量應(yīng)該相應(yīng)于128位Neon實現(xiàn)進行擴展。但實際上，Stephens說吞吐量還取決于具體的硬件實現(xiàn)選擇，例如SVE執(zhí)行單元的數(shù)量與給定實現(xiàn)的Neon執(zhí)行單元的數(shù)量。

然而，當轉(zhuǎn)換為具有較小范圍的數(shù)據(jù)類型（例如INT8和FP16）時，基于blfoat16的網(wǎng)絡(luò)的易部署性與其最終大小和性能之間存在折衷。Stephens表示，使用blfoat16進行推理可能對那些無法承擔(dān)額外費用和重新訓(xùn)練網(wǎng)絡(luò)的開發(fā)人員來說是有吸引力的，因為只有一種類型可用于訓(xùn)練和推理，因此可以使用這些較小的類型（可能需要幾個月）。

另外，需要注意的是bfloat16類型沒有標準，因此無法保證相同計算的結(jié)果在不同的處理器上完全相同。但正如Stephens所指出的那樣，F(xiàn)P32關(guān)于如何對點積進行排序（IEEE保持開放排序），甚至存在可變性。無論如何，四舍五入的噪音幾乎總是可以接受的，因為正如斯蒂芬斯所說，機器學(xué)習(xí)是一種統(tǒng)計游戲。

Arm對bfloat16的支持，使得GPU（目前廣泛使用的機器學(xué)習(xí)引擎）包括Nvidia和AMD，成為唯一仍然不提供該格式原生支持的機器學(xué)習(xí)引擎。但作為現(xiàn)在使用最廣泛的處理器架構(gòu)，GPU支持bfloat16幾乎是不可避免的，包括英特爾即將推出的X e GPU加速器。IEEE是否曾接受bfloat16并提供了一些標準？這還有待觀察。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103550
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8501

瀏覽量
134572
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1983

瀏覽量
35895

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

Arm宣布將會采用Bfloat16數(shù)據(jù)類型，這種數(shù)據(jù)類型會成為主流嗎？

評論