十次啦美国亚洲精品,国外破处大片,亚洲一级乇片无码

在存儲(chǔ)器中直接添加數(shù)據(jù)處理功能正在引起人們的重視，尤其是那些數(shù)據(jù)量巨大、在各類存儲(chǔ)器和處理器之間來(lái)回傳輸數(shù)據(jù)需要耗費(fèi)太多的能量和時(shí)間的應(yīng)用。

在過(guò)去的十年中，將處理器添加到存儲(chǔ)器的想法斷斷續(xù)續(xù)出現(xiàn)在人們的腦海中，人們將其作為未來(lái)可能的發(fā)展方向，但這被認(rèn)為是一種昂貴且未經(jīng)測(cè)試的器件微縮替代方案，從而遭到了摒棄。如今，由于熱效應(yīng)、各種類型的噪音，以及飛漲的設(shè)計(jì)和制造成本，微縮的效益減少了，所有的選擇都擺上了桌面。尤其是汽車中的計(jì)算機(jī)視覺(jué)應(yīng)用，因?yàn)榇藭r(shí)激光雷達(dá)和攝像傳感器將產(chǎn)生視頻流；還有人工智能/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)領(lǐng)域，因?yàn)榇藭r(shí)需要快速處理大量數(shù)據(jù)。

AMD公司客戶產(chǎn)品首席架構(gòu)師Dan Bouvier表示：“如果你能在存儲(chǔ)數(shù)據(jù)的地方處理數(shù)據(jù)，效率就會(huì)高得多。如果你必須要跨越鏈路，就會(huì)消耗大量功率，尤其會(huì)占用大量I/O。這會(huì)讓PHY無(wú)法微縮。而且此處的封裝技術(shù)太昂貴，無(wú)法進(jìn)入更精細(xì)的接點(diǎn)間隔（bump pitches）。而你當(dāng)然希望盡可能緊密地壓縮。如果你使用的是異構(gòu)處理器，那么本地電源管理就容易很多。 ”

這在數(shù)據(jù)中心中非常現(xiàn)實(shí)，就像在自動(dòng)駕駛汽車和其他邊緣設(shè)備中一樣，而且這遠(yuǎn)非驚人的新發(fā)現(xiàn)。AI/ML/DL和視頻流都不是新技術(shù)。但隨著它們開(kāi)始跨越多個(gè)市場(chǎng)，涉及功率和延遲的獨(dú)特挑戰(zhàn)正在出現(xiàn)。簡(jiǎn)而言之，需要處理的數(shù)據(jù)量預(yù)計(jì)將超過(guò)微縮所帶來(lái)的性能和功耗方面的效益，而解決這一問(wèn)題的唯一方法是通過(guò)架構(gòu)改進(jìn)和軟硬件協(xié)同設(shè)計(jì)。

Babblelabs公司首席執(zhí)行官Chris Rowen表示：“自從計(jì)算機(jī)出現(xiàn)以來(lái)，平衡內(nèi)存帶寬和計(jì)算帶寬一直是計(jì)算機(jī)系統(tǒng)架構(gòu)中的核心問(wèn)題。甚至在50年前，人們就說(shuō)，‘我需要以一種通用的方式逐個(gè)字節(jié)進(jìn)行運(yùn)算。’”

這些年來(lái)，這個(gè)方程式并沒(méi)有顯著改變，改變的是更高效地實(shí)現(xiàn)這一點(diǎn)的方法。例如：

將多次運(yùn)算組合到一個(gè)周期中；

通過(guò)緩存或降低計(jì)算精度，改變數(shù)據(jù)在處理器和存儲(chǔ)器之間移動(dòng)的頻率；

縮短處理器和存儲(chǔ)器之間的距離，同時(shí)確保有足夠的帶寬。

上述三個(gè)領(lǐng)域的工作都在進(jìn)行中，并且都大有希望。但是減小處理器和存儲(chǔ)器之間的距離在許多方面都提出了有趣的挑戰(zhàn)。

Rambus公司首席科學(xué)家Craig Hampel表示：“從技術(shù)的角度看，減小距離當(dāng)然是可行的。而且它適合在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中增加權(quán)重的需要，因?yàn)槟銦o(wú)法承受延遲。問(wèn)題出在經(jīng)濟(jì)上。如果你看看DRAM，就會(huì)發(fā)現(xiàn)位元是按照一種非常規(guī)則的方式組合的，因此它具有成本效益。3D的目標(biāo)是縮小這些距離，2.5D肯定也有幫助。但這兩種方法都使熱問(wèn)題更難以解決，而且更難以測(cè)試。 ”

由美光和三星開(kāi)發(fā)的Hybrid Memory Cube提供了一個(gè)案例，通過(guò)在3D配置中將存儲(chǔ)器堆疊在邏輯器件上，并使用硅通孔（TSV）連接不同層，從而實(shí)現(xiàn)距離的減小和數(shù)據(jù)吞吐量的提升。

Kandou Bus公司首席執(zhí)行官Amin Shokrollahi表示：“人們對(duì)直接訪問(wèn)存儲(chǔ)器非常感興趣。問(wèn)題是，你必須能夠構(gòu)建它，這樣你才能進(jìn)行正常的編程。軟件和硬件同樣重要。”

這是一個(gè)經(jīng)濟(jì)上特別惱人的領(lǐng)域。Shokrollahi說(shuō)：“Hybrid Memory Cube沒(méi)有成功的原因之一是沒(méi)有第二個(gè)來(lái)源。HBM（高帶寬內(nèi)存）更為簡(jiǎn)單，但它提供了對(duì)所有存儲(chǔ)器的訪問(wèn)，而且它是多源的。HBM封裝還可以支持更多的層，而且你可以非常輕松地冷卻它。因?yàn)槿绻銓⑻幚砥鞣庋b在存儲(chǔ)器中，它會(huì)變得非常熱。”

一種可能的解決方案是限制處理器和存儲(chǔ)器的大小。在上月舉行的Hot Chips 30會(huì)議上，總部位于得克薩斯州奧斯汀的初創(chuàng)公司Mythic介紹了一種新的矩陣乘法存儲(chǔ)器架構(gòu)，旨在用于AI /機(jī)器學(xué)習(xí)市場(chǎng)。Mythic的方法是在flash存儲(chǔ)器中進(jìn)行模擬計(jì)算以提高性能。

Mythic公司的首席技術(shù)官Dave Fick表示：“我們將使用flash陣列中的flash晶體管來(lái)表示權(quán)重矩陣。我們采用這種flash陣列，然后將其打包成小塊。我們有基于小塊的架構(gòu)，其中每個(gè)小塊都有一個(gè)這樣的存儲(chǔ)器陣列，還有其他支持重新配置和中間數(shù)據(jù)存儲(chǔ)的邏輯。SRAM提供中間數(shù)據(jù)存儲(chǔ)，因此在中間階段我們將數(shù)據(jù)存儲(chǔ)在SRAM中。我們有RISC-V處理器，用于在小塊內(nèi)提供控制。我們有路由器，實(shí)現(xiàn)與相鄰的小塊通信。然后有SIMD（單指令，多數(shù)據(jù)）單元，它提供的運(yùn)算不是矩陣乘法。”

這里的局限是專業(yè)化，因?yàn)閒lash晶體管不能快速編程。Fick說(shuō)：“你需要擁有一套固定的應(yīng)用，但這對(duì)于邊緣系統(tǒng)來(lái)說(shuō)非常典型。我們可以通過(guò)將不同的區(qū)域映射到不同的應(yīng)用來(lái)支持多個(gè)應(yīng)用，因此我們可以一次支持多個(gè)應(yīng)用。”

關(guān)于存儲(chǔ)里的數(shù)據(jù)處理分析

圖1：Mythic公司提出的架構(gòu)，應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)。（來(lái)源：Mythic / Hot Chips 30）

制造挑戰(zhàn)

還有其他問(wèn)題需要解決。減小信號(hào)在存儲(chǔ)器和邏輯器件之間傳輸?shù)木嚯x會(huì)帶來(lái)熱量和成本方面的挑戰(zhàn)。但是直接在存儲(chǔ)器中構(gòu)建處理功能中會(huì)增加集成和兼容性問(wèn)題。

OneSpin Solutions總裁兼首席執(zhí)行官Raik Brinkmann表示：“最大的問(wèn)題是，存儲(chǔ)工藝和邏輯工藝無(wú)法結(jié)合在一起，因此你無(wú)法合理地將這些器件組裝在一起。這引發(fā)了制造方面的另一波創(chuàng)新浪潮。例如，對(duì)于單片3D架構(gòu)，邏輯層和存儲(chǔ)層之間有非常細(xì)的連線連接著兩層硅片。存儲(chǔ)器中的計(jì)算基本就是這個(gè)樣子。”

在這一點(diǎn)上，沒(méi)有人確切知道這種方法在制造中會(huì)產(chǎn)生怎樣的收益。

Arm公司研究員Rob Aitken表示：“這增加了一系列全新的挑戰(zhàn)。這種工藝中，有趣的架構(gòu)創(chuàng)新之一就是像斯坦福大學(xué)那樣使用基于像素的工藝系統(tǒng)。在這樣的系統(tǒng)中，像素彼此相對(duì)獨(dú)立并且存在于2D表面中。問(wèn)題是，當(dāng)你把兩個(gè)晶圓放在一起時(shí)，收率可能不同于單一晶圓的情形。例如，‘這個(gè)晶圓的收率是75%，那個(gè)晶圓的收率是75%，當(dāng)我把它們放在一起時(shí)，收率是30%。’實(shí)際上，你必須建立一個(gè)系統(tǒng)，讓三維堆疊中隱含的冗余與你一起工作，而不是與你作對(duì)。但即使你不使用單片3D，你只是想在存儲(chǔ)器中或者存儲(chǔ)器附近進(jìn)行計(jì)算，那也會(huì)涉及到數(shù)據(jù)移動(dòng)問(wèn)題。如果你的系統(tǒng)需要移動(dòng)數(shù)據(jù)，那么處理器的精妙程度和速度并不重要，因?yàn)檫@不是限制因素。”

設(shè)計(jì)挑戰(zhàn)

這在設(shè)計(jì)方面引發(fā)了一系列其他挑戰(zhàn)。

eSilicon公司營(yíng)銷副總裁Mike Gianfagna表示：“這不僅僅是如何在設(shè)計(jì)中添加更多的東西，部分原因還在于你如何改變芯片設(shè)計(jì)的傳統(tǒng)方法。近存儲(chǔ)器隊(duì)列需要復(fù)雜的并行設(shè)計(jì)。”

這還需要深入了解如何在設(shè)計(jì)中使用各種類型的存儲(chǔ)器。AMD公司的Bouvier表示：“一個(gè)重要的死對(duì)頭是虛擬內(nèi)存子系統(tǒng)，這是用反常的方式移動(dòng)數(shù)據(jù)，相當(dāng)于二次轉(zhuǎn)化。 ”

但Bouvier指出，對(duì)于不同類型的芯片如何利用DRAM有不同的衡量標(biāo)準(zhǔn)。Bouvier表示，對(duì)于discrete GPU，DRAM的運(yùn)行效率在90%左右。對(duì)于APU或CPU，它的運(yùn)行效率在80%到85%之間。

對(duì)于AI/ML/DL應(yīng)用，這在推理方面尤為重要。

Babblelabs公司的Rowen表示：“英偉達(dá)之所以如此強(qiáng)大，并不僅僅是因?yàn)樗鼈冇胁⑿屑軜?gòu)，而是因?yàn)樗鼈冇写罅康膬?nèi)存。推理過(guò)程的一個(gè)顯著不同之處在于，每個(gè)字節(jié)的內(nèi)存通常有數(shù)百次運(yùn)算。所以這個(gè)問(wèn)題的不同之處在于你通常不用關(guān)心內(nèi)存，至少對(duì)于推理而言是如此。你可以拋出大量與問(wèn)題密切相關(guān)的計(jì)算，而不會(huì)出現(xiàn)內(nèi)存瓶頸。導(dǎo)致諸多創(chuàng)新的原因之一是，人們推出了非常密集的計(jì)算架構(gòu)和粗粒度陣列，得到的反應(yīng)是‘這很好，但沒(méi)有具有這些特征的問(wèn)題。’他們中的大多數(shù)都失敗了，因?yàn)樗麄儧](méi)有足夠的內(nèi)存帶寬。但現(xiàn)在，我們遇到的問(wèn)題確實(shí)存在帶寬不成問(wèn)題的特征。”

這使得在內(nèi)存中或非常接近內(nèi)存的地方添加內(nèi)存更加引人注目。盡管這還不是一個(gè)確定的賭注，但除非經(jīng)過(guò)嚴(yán)肅的討論，否則它不會(huì)被拋棄。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

存儲(chǔ)器

存儲(chǔ)器

+關(guān)注

關(guān)注
38

文章
7651

瀏覽量
167367
數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7256

瀏覽量
91853
數(shù)據(jù)處理

數(shù)據(jù)處理

+關(guān)注

關(guān)注
0

文章
627

瀏覽量
29173

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

關(guān)于存儲(chǔ)里的數(shù)據(jù)處理分析

評(píng)論