女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析Roofline模型實踐

Linux閱碼場 ? 來源:面包板社區 ? 作者:Linux閱碼場 ? 2021-04-28 16:14 ? 次閱讀

在多核異構的時代,軟件人員普遍面臨的一個困惑是,面對如此復雜的系統,應該如何部署我們的算法,是應該讓它運行在CPUGPU還是甚至類似TPU的專門ASIC上才是最佳方案?另外給定特定的計算平臺,我們的算法實現是不是已經榨干硬件平臺的最大能力,還有沒有進一步改善的空間?這些問題尋尋覓覓答案,真像霧里看花,我們渴望有一雙慧眼,幫我們穿透迷津。

在衡量計算效能的正確姿勢我們提到了內存帶寬(memory bandiwidth)和以FLOPS為代表的算力是可以很好的刻畫計算平臺的兩個指標。同時既然是要衡量算法的性能自然我們也要考慮算法的特性。基于此,論文《Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型,試圖對硬件和軟件通盤考慮,從而提出改善性能的洞見。

這里我們試著解釋如下,首先我們要介紹運算強度(arithmetic intensity,簡寫成AI)的概念,指的是針對單位內存讀寫數據進行的運算次數,以FLOP/Byte為單位。比如衡量計算效能的正確姿勢(2)介紹過的SAXPY,每次迭代,有三次內存訪問(x讀一次,y讀寫各一次),而有兩次浮點運算(乘加各一次),所以其AI為(2 * N) / (3 * N * 4) = 1/6。

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 N; ++i)

y[i] = a*x[i] + y[i];

}

引進AI后,算力FLOPS就可以用以下公式來計算。

e6fcb8b8-a7f7-11eb-9728-12bb97331649.png

兩邊取對數,

e7379988-a7f7-11eb-9728-12bb97331649.png

以logFLOPS為Y,logAI為X,我們可以得到斜截式 Y = X + logBW,另對特定平臺,算力FLOPS存在極限值,據此我們可以作如下圖。

e7486da8-a7f7-11eb-9728-12bb97331649.png

圖中紫色的線條是不是很類似屋脊線,這正是該模型命名的由來。以脊點為界,左邊區域構成內存帶寬瓶頸區域,右邊區域對應算力瓶頸區域。已知某算法的AI,其最大可獲取FLOPS很容易計算得到,見如下公式,為AI所在豎直線與Roofline的交點。如算法Algo1的AI處于內存帶寬受限區域,而算法Algo2的AI則位于算力受限區域,如果Algo1和Algo2為同一問題兩種算法方案,顯然Alg2更有機會獲取滿意的FLOPS。

e77db544-a7f7-11eb-9728-12bb97331649.png

上面公式代表了理想化的情形,實際操作中,存在各種各樣的天花板(Ceiling)障礙,算法優化的過程就是反復突破這些障礙而盡量接近roofline,最后得到理想的性能。如下圖過程展示,介紹如何通過改善算法的數據局部性以充分利用Cache,并通過向量化而調用SIMD硬件資源來達到這一目的。

e7a00b3a-a7f7-11eb-9728-12bb97331649.png

除了上面介紹的Roofline模型能夠讓我們在特定平臺“紙上談兵”改善算法性能,Roofline也可以可視化同一算法部署在不同平臺時候性能的比較,結果讓人一目了然。在Google的有關TPU(TPU是Google開發的專門用于神經網絡算法加速的芯片)的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里,作者利用Roofline圖表來比較各種神經網絡算法分別部署在同時代CPU、GPU和TPU的性能差異,令人印象深刻。五角星、三角形、圓形分別代表對應算法在TPU、GPU和CPU上運行狀況。

e8b3005e-a7f7-11eb-9728-12bb97331649.png

需要指出的是,Roofline模型在實踐中并不像想象般容易,運用的時候有很多細微的地方需要仔細推敲。但它仍不失為非常insightful的尋寶圖,如果你能學會正確解讀,它完全有機會幫我們找到算法性能優化的巨大寶藏。以后我們會有很多場合涉及它的理念和具體用法,敬請期待。
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • asic
    +關注

    關注

    34

    文章

    1243

    瀏覽量

    121992
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11038

    瀏覽量

    216024
  • 算法
    +關注

    關注

    23

    文章

    4699

    瀏覽量

    94757

原文標題:Roofline模型初步

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    千方科技大模型技術在交通運輸領域的應用實踐

    2025年,全國交通運輸工作會議明確提出實施“人工智能+交通運輸”行動,推動交通基礎設施數字化升級。近期,千方科技作為行業標桿企業,受邀參與交通運輸部管理干部學院主辦的“DeepSeek在交通運輸管理中的應用專題研討班”,分享大模型技術在交通運輸領域的應用實踐
    的頭像 發表于 05-22 09:23 ?226次閱讀

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數 2,350 億,激活參數
    的頭像 發表于 05-08 11:45 ?777次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳<b class='flag-5'>實踐</b>

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發表于 03-17 15:32 ?2755次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細<b class='flag-5'>解析</b>

    NVIDIA大語言模型在推薦系統中的應用實踐

    商品。之后,系統會借助相對簡單的粗排模型對這些候選集進行初步篩選,以縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結果。
    的頭像 發表于 03-05 09:30 ?666次閱讀
    NVIDIA大語言<b class='flag-5'>模型</b>在推薦系統中的應用<b class='flag-5'>實踐</b>

    用PaddleNLP在4060單卡上實踐模型預訓練技術

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型的預訓練。GPT-2的預訓練關鍵技術與流程與GPT-4等大參數模型如出一轍,通過親手實踐GPT-
    的頭像 發表于 02-19 16:10 ?860次閱讀
    用PaddleNLP在4060單卡上<b class='flag-5'>實踐</b>大<b class='flag-5'>模型</b>預訓練技術

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+第一章初體驗

    的deepseek,讓美股暴跌17%,讓美國的星際之門計劃直接流產了,想笑出聲。 《基于大模型的RAG應用開發與優化》一書從理論到實踐,系統性地介紹了如何結合大模型與RAG技術構建高效的應用系統。本文針對該書
    發表于 02-07 10:42

    光電效應的數學模型解析

    光電效應是指光照射在物質上,引起電子從物質表面逸出的現象。以下是光電效應的數學模型及詳細解析: 一、光電效應的基本數學模型 光子能量公式 : 表達式:E = hν 含義:E代表光子的能量,h是普朗克
    的頭像 發表于 11-25 13:46 ?4243次閱讀

    TLC555-Q1 spice模型到LTSPICE仿真軟件中提示無法解析是怎么回事?

    請教貴司提供的模型spice模型到LTSPICE仿真軟件中提示無法解析是怎么回事?
    發表于 11-08 07:42

    云知聲山海大模型的訓練優化方法及應用實踐

    由AI大模型工場主辦的AI大模型生態暨算力大會在京舉行。作為國內最具影響力與最懂大模型的AI生態大會,此次大會以「AI NATIVE,生成未來」為主題,圍繞大模型、算力、數據產業、基礎
    的頭像 發表于 10-12 14:12 ?572次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    和信息源來推導出最終答案。 問答原理的具體實現 1. 輸入解析 當用戶提出問題時,模型首先會對問題進行解析,提取關鍵詞、主題和背景信息等關鍵要素。這些要素將作為后續處理和推理的基礎。 2. 檢索
    發表于 08-02 11:03

    PyTorch神經網絡模型構建過程

    PyTorch,作為一個廣泛使用的開源深度學習庫,提供了豐富的工具和模塊,幫助開發者構建、訓練和部署神經網絡模型。在神經網絡模型中,輸出層是尤為關鍵的部分,它負責將模型的預測結果以合適的形式輸出。以下將詳細
    的頭像 發表于 07-10 14:57 ?828次閱讀

    AI大模型的發展歷程和應用前景

    領域取得重要突破。本文將深入解析AI大模型的基本原理、發展歷程、應用前景以及面臨的挑戰與爭議,為讀者提供一個全面而深入的科普視角。
    的頭像 發表于 07-03 18:20 ?2139次閱讀

    我在大模型應用之RAG方向的探索、實踐與思考

    。 本文將從背景、核心工作、業務實踐與反饋以及未來展望等幾個方向進行介紹。 背景介紹 大語言模型(LLM)在自然語言處理和自然語言理解方面取得了重大突破。大模型與應用場景的結合有助于可以在降低成本的同時提高效率。在具體場景
    的頭像 發表于 06-28 16:20 ?1623次閱讀
    我在大<b class='flag-5'>模型</b>應用之RAG方向的探索、<b class='flag-5'>實踐</b>與思考

    利用大模型服務一線小哥的探索與實踐

    一、小哥作業+大模型 2022年OpenAI基于GPT推出了聊天機器人ChatGPT,帶來了非常驚艷的語言理解、內容生成、知識推理等能力,能夠準確理解人的語言、意圖,并能夠回答出清晰、完整的內容,讓
    的頭像 發表于 06-17 14:59 ?561次閱讀
    利用大<b class='flag-5'>模型</b>服務一線小哥的探索與<b class='flag-5'>實踐</b>

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    再次感謝電子發燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制 的心得體會。 雖然注意力機制可以顯著提高模型處理長序列數據的能力,但這也帶來了計算成本的增加。在大型模型中,自
    發表于 06-07 14:44