女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)推斷應(yīng)用為什么應(yīng)該考慮專用硬件?

YCqV_FPGA_EETre ? 來源:賽靈思 ? 作者:Quenton Hall ? 2021-03-10 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2014 年,斯坦福大學(xué)教授 Mark Horowitz 發(fā)表了一篇題目為“計算的能源問題(以及我們該怎么辦)”的論文。這篇具有深遠意義的論文,討論了當前半導(dǎo)體行業(yè)所面臨的最熱門的、與登納德縮放比例定律 (Dennard Scaling )和摩爾定律 (Moore’s Law) 失效相關(guān)的挑戰(zhàn)。

如果可以的話,我想借用并改編一下 Mark 的論文標題,這樣我就可以就機器學(xué)習(xí)推斷應(yīng)用為什么應(yīng)該考慮專用硬件,分享一下我的一些觀點。

專用硬件加速實在必行

首先,讓我們考慮一下問題的癥結(jié)所在。大約在2005 年,處理器內(nèi)核時鐘頻率的增長進入了瓶頸。縮小工藝尺寸和降低內(nèi)核電壓不再像以前一樣能夠為我們帶來優(yōu)勢。其根本的問題,就是計算已經(jīng)達到了功率密度(W/mm2)的極限。

如果我們在同一個裸片上放置更多的內(nèi)核,我們就可以在相同的功耗預(yù)算下增加運算數(shù)量,但其前提是我們還還要在一定程度上降低時鐘頻率,以抵消額外內(nèi)核所消耗的能量。AMD英特爾都是在 2005-2006 年期間發(fā)布了他們的首個雙核處理器,這并不是巧合。然而,隨著我們繼續(xù)嘗試增加內(nèi)核的數(shù)量,我們必須考慮每個運算所消耗的能量和每個運算所需的芯片面積。此外,我們還需要確保我們能夠通過 N 來有效地實現(xiàn)并行算法,其中 N 是內(nèi)核的數(shù)量。對于所有的算法來說,這一問題的通用解決方案,或者說“計算飽和的靈丹妙藥”仍然是一個難以捉摸的問題,現(xiàn)在最好的解決方法就是應(yīng)用“自適應(yīng)硬件”。

事實證明,無論您的處理器設(shè)計是使用多核 CPUGPU 還是 SoC 實現(xiàn)的,在處理器級的總體功耗分布都將大致相同。

所以假若我們估算出以下的情況便較為接近真實情況:

內(nèi)核 = 30%

內(nèi)部存儲器(L1、L2、L3)= 30%

外部存儲器(DDR)= 40%

在上面的分析中,我們沒有考慮的是還存在另外一個總體優(yōu)化的方式,那就是專用硬件加速器優(yōu)化的實現(xiàn)方式。我們可以對專用硬件進行優(yōu)化以極高效地執(zhí)行特定的功能。通常情況下,這種硬件是為了減少外部存儲器訪問而設(shè)計的,其同時減少了時延與功耗。我們可以對專用硬件進行優(yōu)化,以便給定算法的數(shù)據(jù)運動部分使用本地化存儲器 (BlockRAM、UltraRAM) 來進行中間結(jié)果的存儲。

設(shè)計高效的加速器是多維度的設(shè)計問題:

我們?nèi)绾螌崿F(xiàn)硬件優(yōu)化來處理我們的特定算法?(Mark 很好地回答了這一問題,即必須將算法從“所有算法的空間”移動到“受限空間”。)

我們?nèi)绾伪3謹y帶數(shù)據(jù)的加速器,以確保我們的計算加速器在每個時鐘周期都是飽和的?

我們?nèi)绾巫畲笙薅鹊販p少通信開銷?

我們?nèi)绾蝺?yōu)化正在處理的運算符的動態(tài)范圍?

我們?nèi)绾巫畲笙薅鹊販p少外部存儲器,甚至是本地存儲器的使用?

我們?nèi)绾蜗噶钐幚砉艿篱_銷?

我們?nèi)绾伟才挪僮饕源_保數(shù)據(jù)重用,從而使存儲器流量最小化,并且使存儲器訪問相關(guān)的運算數(shù)量最大化?

自適應(yīng)硬件的戰(zhàn)略優(yōu)勢這里,我們將討論和評估賽靈思的自適應(yīng)硬件及 DNNDK 如何應(yīng)對上述這些尖銳的問題和挑戰(zhàn),特別是當它涉及到機器學(xué)習(xí)推斷時。在進行下一次設(shè)計之前,我建議您回顧一下 Mark 有關(guān)這個主題的精彩演講,然后再考慮如何在您的下一次設(shè)計中使用自適應(yīng)硬件來實現(xiàn)您的戰(zhàn)略優(yōu)勢。

在這篇文章的第 2 部分中,我們將討論和評估賽靈思的自適應(yīng)硬件及 DNNDK (現(xiàn)在已經(jīng)發(fā)布Vitis AI 統(tǒng)一軟件平臺) 如何應(yīng)對這些挑戰(zhàn),特別是當它涉及到機器學(xué)習(xí)推斷時。

原文標題:人工智能引發(fā)能源問題,我們該怎么辦?(一)

文章出處:【微信公眾號:FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280074
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249614

原文標題:人工智能引發(fā)能源問題,我們該怎么辦?(一)

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?469次閱讀

    使用MATLAB進行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標注數(shù)據(jù)進行推斷機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?690次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    請問STM32部署機器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學(xué)習(xí)算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34

    為什么無法從源代碼推斷OpenVINO?構(gòu)建中的VPU?

    為什么無法從源代碼推斷OpenVINO?構(gòu)建中的 VPU
    發(fā)表于 03-06 07:12

    機器學(xué)習(xí)模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?365次閱讀

    如何快速學(xué)習(xí)硬件電路

    對于想要學(xué)習(xí)硬件電路的新手來說,一開始可能感到有些困難,但只要掌握了正確的學(xué)習(xí)方法和技巧,就能夠快速地成為一名優(yōu)秀的硬件電路工程師。 首先,新手需要了解基本的電路知識,例如電阻、電容、
    的頭像 發(fā)表于 01-20 11:11 ?1169次閱讀
    如何快速<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>硬件</b>電路

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1194次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    如何選擇云原生機器學(xué)習(xí)平臺

    當今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?458次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習(xí)”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習(xí)能力以便實現(xiàn)人工智能。因為沒有學(xué)習(xí)能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?965次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項目中提出,旨在為TensorFlow框架提供專用硬件加速。NPU的設(shè)計目標是提高機器
    的頭像 發(fā)表于 11-15 09:19 ?1229次閱讀

    鉗位能力與電流和負載具體是什么關(guān)系,應(yīng)該怎么考慮

    記得錢一段時間請教過這個電路,但是一直也沒弄明白。我想知道鉗位能力與電流和負載具體是什么關(guān)系,應(yīng)該怎么考慮?為什么要用一個強的源?負載重是啥意思,電流消耗大?在實際應(yīng)用中使用電源芯片,輸出端也常被負載拉低,這樣說是不是也是鉗位能力不行?鉗位能力怎么理解呢?求教,或者推薦
    發(fā)表于 09-23 08:27

    AI引擎機器學(xué)習(xí)陣列指南

    AMD Versal AI Core 系列和 Versal AI Edge 系列旨在憑借 AI 引擎機器學(xué)習(xí) ( ML ) 架構(gòu)來提供突破性的 AI 推斷加速。這些器件的設(shè)計應(yīng)用范圍廣泛,包括用于
    的頭像 發(fā)表于 09-18 09:16 ?826次閱讀
    AI引擎<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>陣列指南

    DDR存儲器接口的硬件和布局設(shè)計考慮因素

    電子發(fā)燒友網(wǎng)站提供《DDR存儲器接口的硬件和布局設(shè)計考慮因素.pdf》資料免費下載
    發(fā)表于 09-11 14:29 ?1次下載

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學(xué)習(xí)融合應(yīng)用的宏偉藍圖。作者不僅扎實地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    【《時間序列與機器學(xué)習(xí)》閱讀體驗】+ 了解時間序列

    收到《時間序列與機器學(xué)習(xí)》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發(fā)燒友提供了一個讓我學(xué)習(xí)時間序列及應(yīng)用的機會! 前言第一段描述了編寫背景: 由此可知,這是一本關(guān)于時間序列進行大數(shù)
    發(fā)表于 08-11 17:55