深度解析谷歌的AI架構設計

AI 時代的曙光就在這里，了解 AI 驅動軟件的成本結構與傳統軟件有很大差異至關重要。芯片微架構和系統架構在這些創新軟件的開發和可擴展性方面發揮著至關重要的作用。運行軟件的硬件基礎設施對資本支出和運營支出以及隨后的毛利率有明顯更大的影響，這與前幾代軟件相比，前幾代軟件的開發人員成本相對較高。因此，更加重要的是要投入大量精力來優化您的 AI 基礎設施，以便能夠部署 AI 軟件。在基礎設施方面具有優勢的公司在使用 AI 部署和擴展應用程序的能力方面也將具有優勢。

谷歌早在 2006 年就提出了構建 AI 專用基礎設施的想法，但這個問題在 2013 年達到了定點。他們意識到，如果他們想以任何規模部署 AI，就需要將現有數據中心的數量增加一倍。因此，他們開始為 2016 年投入生產的 TPU 芯片奠定基礎。將此與亞馬遜進行比較很有趣，亞馬遜在同一年意識到他們也需要構建定制芯片。

自 2016 年以來，谷歌現已構建了 6 種不同的 AI 芯片，TPU、TPUv2、TPUv3、TPUv4i、TPUv4 和 TPUv5。谷歌主要設計了這些芯片，并與博通進行了不同程度的中后端合作。這些芯片全部由臺積電代工。自 TPUv2 以來，這些芯片還使用了三星和 SK 海力士的 HBM 內存。雖然谷歌的芯片架構很有趣，我們將在本報告的后面深入探討，但還有一個更重要的話題在起作用。

谷歌擁有近乎無與倫比的能力，能夠以低成本和高性能可靠地大規模部署人工智能。話雖如此，讓我們為這個論點帶來一些合理性，因為谷歌也做出了與芯片級性能相關的虛偽聲明，需要糾正。我們認為，由于谷歌從微架構到系統架構的整體方法，與微軟和亞馬遜相比，谷歌在 AI 工作負載方面具有性能/總擁有成本 (perf/TCO) 優勢，而將生成人工智能商業化給企業和消費者的能力是一個不同的討論。

技術領域是一場永無休止的軍備競賽，人工智能是移動最快的戰場。隨著時間的推移，經過訓練和部署的模型架構發生了顯著變化。案例和重點是谷歌的內部數據。CNN 模型在 2016 年到 2019 年迅速上升，但隨后又下降了。與 DLRM、Transformers 和 RNN 相比，CNN 在計算、內存訪問、網絡等方面具有非常不同的配置文件。同樣的情況也發生在完全被 Transformer 取代的 RNN 上。

因此，硬件必須靈活地適應行業的發展并支持它們。底層硬件不能過度專注于任何特定的模型架構，否則它可能會隨著模型架構的變化而變得過時。芯片開發到大規模部署一般需要 4 年時間，因此，硬件可以被軟件想在其上做的事情拋在腦后。這已經可以從使用特定模型類型作為優化點的初創公司的某些 AI 加速器架構中看出。這是大多數 AI 硬件初創公司已經/將要失敗的眾多原因之一。

這一點在谷歌自己的 TPUv4i 芯片上尤為明顯，該芯片專為推理而設計，但無法在谷歌最好的模型（如 PaLM）上運行推理。上一代 Google TPUv4 和 Nvidia A100 不可能在設計時考慮到大型語言模型。同樣，最近部署的谷歌 TPUv5 和 Nvidia H100 不可能在設計時考慮到”AI墻”，也沒有為解決它而開發的新模型架構策略。這些策略是 GPT-4 模型架構的核心部分。

硬件架構師必須對機器學習在他們設計的芯片中的發展方向做出最好的猜測。這包括內存訪問模式、張量大小、數據重用結構、算術密度與網絡開銷等。

此外，芯片微架構只是人工智能基礎設施真實成本的一小部分。系統級架構和部署靈活性是更為重要的因素。今天，我們想深入探討 Google 的 TPU 微架構、系統架構、部署切片、可擴展性，以及他們在基礎設施方面與其他技術巨頭相比的巨大優勢。這包括我們在 TCO 模型中的想法，該模型將 Google 的 AI 基礎設施成本與 Microsoft、Amazon 和 Meta 的成本進行比較。

我們還將從從業者的角度對大型模型研究、訓練和部署進行研究。我們還想深入研究 DLRM 模型，盡管目前是最大的大規模 AI 模型架構，但這些模型經常被低估。此外，我們將討論 DLRM 和 LLM 模型類型之間的基礎設施差異。最后，我們將討論谷歌利用 TPU 為外部云客戶取得成功的能力。同樣在最后，我們認為谷歌的 TPU 有一個異常的復活節彩蛋是一個錯誤。

谷歌的系統基礎設施優勢

谷歌在基礎設施方面的部分優勢在于，他們始終從系統級的角度設計 TPU。這意味著單個芯片很重要，但如何在現實世界的系統中一起使用它更為重要。因此，在我們的分析中，我們將逐層從系統架構到部署使用再到芯片級別。

雖然從系統的角度思考，但他們的系統規模比谷歌更小、更窄。此外，直到最近，Nvidia 還沒有云部署方面的經驗。谷歌在其 AI 基礎設施方面最大的創新之一是在 TPU、ICI 之間使用自定義網絡堆棧。相對于昂貴的以太網和 InfiniBand 部署，此鏈接具有低延遲和高性能。它更類似于 Nvidia 的 NVLink。

谷歌的 TPUv2 可以擴展到 256 個 TPU 芯片，與 Nvidia 當前一代 H100 GPU 的數量相同。他們使用 TPUv3 將這個數字增加到 1024，使用 TPUv4 增加到 4096。根據趨勢線，我們假設當前一代 TPUv5 可以擴展到 16,384 個芯片，而無需通過低效的以太網。雖然從大規模模型訓練的性能角度來看這很重要，但更重要的是他們將其劃分以供實際使用的能力。

谷歌的 TPUv4 系統每臺服務器有 8 個 TPUv4 芯片和 2 個 CPU。此配置與 Nvidia 的 GPU 相同，后者配備 8 個 A100 或 H100 服務器，每臺服務器 2 個 CPU。單個服務器通常是 GPU 部署的計算單元，但對于 TPU，部署單元是更大的“slice”，由 64 個 TPU 芯片和 16 個 CPU 組成。這 64 個芯片通過直接連接的銅纜在 4^3 立方體中與 ICI 網絡內部連接。

在這個 64 芯片單元之外，通信轉而轉移到光學領域。這些光收發器的成本是無源銅纜的 10 倍以上。

將此與 2023 Nvidia SuperPod 部署進行比較，后者使用 NVLink 最多配備 256 個 GPU，僅為 4096 的芯片的 2020 TPUv4 pod 的十六分之一。此外，基于 Nvidia 的第一方渲染和 DGX Superpod 系統，Nvidia 顯然不太關注密度和網絡成本。Nvidia 的部署通常是每個機架 4 個服務器。

除了 4 臺服務器總共 32 個 GPU 之外，通常，通信必須采用光學方式。因此，Nvidia 需要更多的光收發器來進行大規模部署。

谷歌OCS

谷歌部署了其定制光開關，它使用基于 mems 的微鏡陣列陣列在 64 個 TPU slice之間切換。簡短的總結是，谷歌聲稱他們的自定義網絡將吞吐量提高了 30%，使用的電力減少了 40%，資本支出減少了 30%，流程完成減少了 10%，并且在他們的網絡中減少了 50 倍的停機時間，

谷歌使用這些 OCS 來構建其數據中心主干。他們還使用它們將 TPU pod 互連和內部連接在一起。此 OCS 的一大優勢是信號僅保留在光域中，從任何 64 TPU slice到 4096 TPU Pod 內的任何其他 TPU slice。

將此與具有多個 Nvidia SuperPods 的 4,096 個 GPU 的 Nvidia GPU 部署進行比較。該系統需要在這些 GPU 之間進行多層切換，總共需要約 568 個 InfiniBand 交換機。谷歌只需要 48 個光開關來部署 4096 個 TPU。

應該注意的是，與第三方從 Nvidia 購買 Nvidia 的 InfiniBand 交換機相比，直接從 Google 的合同制造商處購買時， Google 的 OCS每個交換機的價格也高出 3.2 到 3.5 倍。不過，這不是一個公平的比較，因為它包括 Nvidia 約 75% 的數據中心毛利率。

如果我們只比較合同制造成本，谷歌的 IE 成本與 Nvidia 的成本；然后成本差異上升到 Nvidia InfiniBand 交換機的 12.8 到 14 倍。部署4096芯片所需的交換機數量為48 vs 568，IE為11.8x。Nvidia 的解決方案在交換機基礎上的制造成本更低。當包括額外的光收發器的成本時，這個等式趨于平衡或向有利于谷歌的方向移動。

每層交換之間的每個連接都是另一個需要更多布線的點。雖然其中一些可以通過直接連接的銅纜完成，但仍有多個點的信號也需要通過光纖傳輸。這些層中的每一層都會在每一層切換之間從電轉換為光再轉換為電。這將使大型電氣開關系統的功耗遠高于谷歌的OCS。

谷歌聲稱所有這些功率和成本的節省都非常大，以至于它們的網絡成本不到 TPU v4 超級計算機總資本成本的 5% 和總功率的不到 3%。這不僅僅是通過從電氣開關轉向內部光開關來實現的。

通過拓撲最小化網絡成本

雖然谷歌大力推動這一觀點，但重要的是要認識到 Nvidia 和 Nvidia 網絡的拓撲結構完全不同。Nvidia 系統部署了“non-blocking”的“Clos 網絡”。這意味著它們可以同時在所有輸入和輸出對之間建立全帶寬連接，而不會發生任何沖突或阻塞。此設計提供了一種可擴展的方法，用于連接數據中心中的許多設備、最大限度地減少延遲并增加冗余。

谷歌的 TPU 網絡放棄了這一點。他們使用 3D 環面拓撲連接三維網格狀結構中的節點。每個節點都連接到網格中的六個相鄰節點（上、下、左、右、前和后），在三個維度（X、Y 和 Z）中的每一個維度上形成一個閉環。這創建了一個高度互連的結構，其中節點在所有三個維度上形成一個連續的循環。

第一張圖比較合乎邏輯，但如果你想一想有點餓了，這個網絡拓撲簡直就是一個甜甜圈！

與 Nvidia 使用的 Clos 拓撲相比，torus 拓撲有幾個優點：

更低的延遲：3D 環面拓撲可以提供更低的延遲，因為它在相鄰節點之間有短而直接的鏈接。這在運行需要節點之間頻繁通信的緊密耦合的并行應用程序時特別有用，例如某些類型的 AI 模型。

更好的局部性：在 3D 環面網絡中，物理上彼此靠近的節點在邏輯上也很接近，這可以帶來更好的數據局部性并減少通信開銷。雖然延遲是一個方面，但功耗也是一個巨大的好處。

較低的網絡直徑：對于相同數量的節點，3D 環面拓撲的網絡直徑低于 Clos 網絡。由于相對于 Clos 網絡需要更少的交換機，因此可以節省大量成本。

另一方面，3D 環面網絡有很多缺點。

可預測的性能：Clos 網絡，尤其是在數據中心環境中，由于其非阻塞特性，可以提供可預測和一致的性能。它們確保所有輸入輸出對都可以在全帶寬下同時連接，而不會發生沖突或阻塞，而這在 3D 環面網絡中是無法保證的。

更易于擴展：在脊葉（spine-leaf ）架構中，向網絡添加新的葉交換機（例如，以容納更多服務器）相對簡單，不需要對現有基礎設施進行重大更改。相比之下，縮放 3D 環面網絡可能涉及重新配置整個拓撲，這可能更加復雜和耗時。

負載平衡：Clos 網絡在任意兩個節點之間提供更多路徑，從而實現更好的負載平衡和冗余。雖然 3D 環面網絡也提供多條路徑，但 Clos 網絡中的備選路徑數量可能更多，具體取決于網絡的配置。

總的來說，雖然 Clos 有優勢，但谷歌的 OCS 減輕了其中的許多優勢。OCS 支持在多個切片和多個 pod 之間進行簡單縮放。

3D 環面拓撲面臨的最大問題是錯誤可能是一個更大的問題。錯誤可能會突然出現并發生。即使主機可用性為 99%，2,048 個 TPU 的幻燈片也將具有接近 0 的正常工作能力。即使在 99.9% 的情況下，使用 2,000 個 TPU 運行的訓練在沒有 Google 的 OCS 的情況下也有 50% 的有效輸出。

OCS 的美妙之處在于它支持動態重新配置路由。

盡管有一些節點出現故障，但仍需要備件以允許調度作業。操作員無法在不冒失敗風險的情況下從 4k 節點 pod 實際調度兩個 2k 節點切片?；?Nvidia 的訓練運行通常需要過多的開銷，專門用于檢查點、拉出故障節點并重新啟動它們。谷歌通過繞過故障節點路由在某種程度上簡化了這一點。

OCS 的另一個好處是切片可以在部署后立即使用，而不是等待整個網絡。

部署基礎設施——用戶的視角

從成本和功耗的角度來看，基礎設施效率很高，允許谷歌每美元部署更多的 TPU，而不是其他公司可以部署的 GPU，但這意味著沒有任何用處。谷歌內部用戶體驗到的最大優勢之一是他們可以根據自己的模型定制基礎設施需求。

沒有任何芯片或系統能夠匹配所有用戶想要的內存、網絡和計算配置文件類型。芯片必須通用化，但與此同時，用戶需要這種靈活性，他們不想要一種放之四海而皆準的解決方案。Nvidia 通過提供許多不同的 SKU 變體來解決這個問題。此外，它們還提供一些不同的內存容量層級以及更緊密的集成選項，例如 Grace + Hopper 和為SuperPods準備的 NVLink Network。

谷歌負擔不起這種奢侈。每個額外的 SKU 意味著每個單獨 SKU 的總部署量較低。這反過來又降低了他們整個基礎設施的利用率。更多的 SKU 也意味著用戶更難在需要時獲得他們想要的計算類型，因為某些選項將不可避免地被超額訂閱。然后，這些用戶將被迫使用次優配置。

因此，谷歌面臨著一個棘手的問題，即向研究人員提供他們想要的確切產品，同時還要最大限度地減少 SKU 差異。與 Nvidia 必須支持其更大、更多樣化的客戶群的數百種不同規模的部署和 SKU 相比，谷歌恰好有 1 個 TPUv4 部署配置，即 4,096 個 TPU。盡管如此，谷歌仍然能夠以一種獨特的方式對其進行slice和切塊，使內部用戶能夠擁有他們想要的基礎設施的靈活性。

Google 的 OCS 還支持創建自定義網絡拓撲，例如扭曲環面網絡。這些是 3d 環面網絡，其中某些維度是扭曲的，這意味著網絡邊緣的節點以非平凡、非線性的方式連接，從而在節點之間創建額外的捷徑。這進一步提高了網絡直徑、負載平衡和性能。

谷歌的團隊充分利用這一點來協助某些模型架構。以下是 2022 年 11 月僅 1 天的各種 TPU 配置的流行情況快照（按芯片數量和網絡拓撲）。有 30 多種不同的配置，盡管許多配置在系統中具有相同數量的芯片，以適應正在開發的各種模型架構。這是谷歌對他們使用 TPU 和靈活性的巨大深刻見解。此外，它們還有許多甚至未被描繪的較少使用的拓撲。

為充分利用可用帶寬，用戶沿 3D 環面的一個維度映射數據并行性，并在其他維度上映射兩個模型并行參數。谷歌聲稱最佳拓撲選擇可以使性能提高 1.2 到 2.3 倍。

規模最大的 AI 模型架構：DLRM

如果不討論深度學習推薦模型 (DLRM)，任何關于 AI 基礎設施的討論都是不完整的。這些 DLRM 是百度、Meta、字節跳動、Netflix 和谷歌等公司的支柱。它是廣告、搜索排名、社交媒體訂閱等領域年收入超過 1 萬億美元的引擎。這些模型包含數十億個權重，對超過一萬億個示例進行訓練，

以每秒超過 300,000 個查詢的速度處理推理。這些模型的大小 (10TB+) 甚至遠遠超過了最大的transformer模型，例如 GPT4，大約為 1TB+（模型架構差異）。

上述所有公司的共同點是，它們依靠不斷更新的 DLRM 來推動其在電子商務、搜索、社交媒體和流媒體服務等各個行業中的個性化內容、產品或服務業務。這些模型的成本是巨大的，必須針對它共同優化硬件。DLRM 并不是一成不變的，而是隨著時間的推移不斷改進，但在繼續之前讓我們先解釋一下通用模型架構。我們將盡量保持簡單。

DLRM 旨在通過對分類和數值特征進行建模來學習用戶-項目交互的有意義的表示。該架構由兩個主要組件組成：嵌入組件（處理分類特征）和多層感知器 (MLP) 組件（處理數字特征）。

用最簡單的術語來說， the 多層感知器組件是密集的。這些特征被饋送到一系列完全連接的層中。這類似于舊的 GPT 4 之前的transformer架構，它們也是密集的，密集層可以很好地映射到硬件上的大規模矩陣多單元。

嵌入組件對于 DLRM 來說是非常獨特的，也是使其計算配置文件如此獨特的組件。DLRM 輸入是表示為離散、稀疏向量的分類特征。一個簡單的谷歌搜索只包含整個語言中的幾個詞。這些稀疏輸入不能很好地映射到硬件中的大量矩陣乘法單元，因為它們從根本上更類似于哈希表，而不是張量。由于神經網絡通常在密集向量上表現更好，因此使用嵌入將分類特征轉換為密集向量。

稀疏輸入：[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]

密集向量：[0.3261477, 0.4263801, 0.5121493]

嵌入函數將分類空間（英語單詞、社交媒體帖子的參與度、對某種帖子的行為）映射到更小的密集空間（100 個向量代表每個單詞）。這些功能是使用查找表實現的，查找表是 DLRM 的重要組成部分，通常構成 DLRM 模型的第一層。嵌入表的大小可以有很大的不同，從幾十兆字節到幾百千兆字節甚至 TB 不等。

Meta 推出 2 年的 DLRM 參數超過 12 萬億個，需要 128 個 GPU 來運行推理。如今，最大的生產 DLRM 模型至少大了好幾倍，并且僅僅為了保存模型嵌入就消耗了超過 30TB 的內存。預計明年嵌入量會增加到 70TB 以上！因此，這些表需要在許多芯片的內存中進行分區。共有三種主要的分區方法：列分片（column sharding）、行分片（row sharding）和表分片（table sharding）。

DLRM 的性能在很大程度上取決于內存帶寬、內存容量、矢量處理性能以及芯片之間的網絡/互連。嵌入查找操作主要由小的收集或分散內存訪問組成，這些訪問具有低算術強度（FLOPS 根本無關緊要）。對嵌入表的訪問基本上是非結構化的稀疏性。每個查詢都必須從 30TB 以上的嵌入中提取數據，這些嵌入分布在數百或數千個芯片上。這會導致用于 DLRM 推理的超級計算機的計算、內存和通信負載不平衡。

這對于 MLP 和類似 GPT-3 的轉換器中的密集操作有很大不同。芯片 FLOPS/秒仍然是主要性能驅動因素之一當然，除了 FLOPs 之外beyond FLOPs還有多種因素阻礙性能，但仍然可以在 Chinchilla 風格的 LLM 中實現超過 71% 的硬件觸發器利用率。

谷歌的 TPU 架構

谷歌的 TPU 在架構中引入了一些關鍵創新，使其有別于其他處理器。與傳統處理器不同，TPU v4 沒有專用的指令緩存。相反，它采用類似于 Cell 處理器的直接內存訪問 (DMA) 機制。TPU v4 中的矢量緩存不是標準緩存層次結構的一部分，而是用作暫存器。便簽本與標準緩存的不同之處在于它們需要手動寫入，而標準緩存會自動處理數據。由于不需要服務于大型通用計算市場，谷歌可以利用這種更高效的基礎設施。這確實會在一定程度上影響編程模型，盡管 Google 工程師認為 XLA 編譯器堆?？梢院芎玫靥幚磉@個問題。對于外部用戶則不能這樣說。

TPU v4 擁有用于暫存器的 160MB SRAM 以及 2 個 TensorCore，每個 TensorCore 都有 1 個向量單元和 4 個矩陣乘法單元 (MXU) 和 16MB 向量內存 (VMEM)。兩個 TensorCore 共享 128MB 內存。它們支持 BF16 的 275 TFLOPS，還支持 INT8 數據類型。TPU v4 的內存帶寬為 1200GB/s。芯片間互連 (ICI) 通過六個 50GB/s 鏈路提供 300GB/s 的數據傳輸速率。

TPU v4 中包含一個 322b 超長指令字 (VLIW) 標量計算單元。在 VLIW 架構中，指令被組合成一個單一的長指令字，然后被分派到處理器執行。這些分組指令，也稱為束，在程序編譯期間由編譯器顯式定義。VLIW 包包含多達 2 條標量指令、2 條矢量 ALU 指令、1 條矢量加載和 1 條矢量存儲指令，以及 2 個用于將數據傳入和傳出 MXU 的插槽。

Vector Processing Unit (VPU) 配備了 32 個 2D 寄存器，包含 128x 8 個 32b 元素，使其成為一個 2D 矢量 ALU。矩陣乘法單元 (MXU) 在 v2、v3 和 v4 上為 128x128，v1 版本采用 256x256 配置。發生這種變化的原因是谷歌模擬了四個 128x128 MXU 的利用率比一個 256x256 MXU 高 60%，但四個 128x128 MXU 占用的面積與 256x256 MXU 相同。MXU 輸入使用 16b 浮點 (FP) 輸入并使用 32b 浮點 (FP) 進行累加。

這些更大的單元允許更有效的數據重用以突破內存墻。

谷歌 DLRM 優化

谷歌是最早開始在其搜索產品中大規模使用 DLRM 的公司之一。這種獨特的需求導致了一個非常獨特的解決方案。上述架構的主要缺陷在于它無法有效處理 DLRM 的嵌入。Google 的主要 TensorCore 非常大，與這些嵌入的計算配置文件不匹配。谷歌必須在他們的 TPU 中開發一種全新類型的“SparseCore”，它不同于上面描述的用于密集層的“TensorCore”

SparseCore (SC) 為 Google 的 TPU 中的嵌入提供硬件支持。早在 TPU v2 中，這些特定領域的處理器就有直接綁定到每個 HBM 通道/子通道的塊。它們加速了訓練深度學習推薦模型 (DLRM) 中內存帶寬最密集的部分，同時僅占用大約 5% 的芯片面積和功率。通過在每個 TPU v4 芯片而非 CPU 上使用快速的 HBM2 進行嵌入，與將嵌入留在主機 CPU 的主內存上相比，谷歌展示了其內部生產 DLRM 的 7 倍加速（TPU v4 SparseCore vs TPU v4 Embeddings on Skylake-SP )。

SparseCore 支持從 HBM 進行快速內存訪問，使用專用的獲取、處理和刷新單元將數據移動到稀疏向量內存 (Spmem) 的組，并由可編程的 8 寬 SIMD 向量處理單元 (scVPU) 更新。這些單元的 16 個計算塊進入一個 SparseCore。

額外的跨通道單元執行特定的嵌入操作（DMA、排序、稀疏減少、分叉、連接）。每個 TPU v4 芯片有 4 個 SparseCore，每個有 2.5MB 的 Smem。展望未來，我們推測由于 HBM3 上子通道數量的增加，TPUv5 的 SparseCores 數量將繼續增加到 6，tiles數量將增加到 32。

雖然遷移到 HBM 帶來的性能提升是巨大的，但性能擴展仍然受到互連對分帶寬的影響。TPU v4 中 ICI 的新 3D 環面有助于進一步擴展嵌入查找性能。然而，當擴展到 1024 個芯片時，由于 SparseCore 開銷成為瓶頸，改進會下降。

如果谷歌認為他們的 DLRM 需要增加超過約 512 個芯片的大小和容量，這個瓶頸可能會導致每個圖塊的 Smem 也隨著 TPUv5 增加。

編輯：黃飛

閱讀全文

谷歌(103102) 谷歌(103102)
AI(263628) AI(263628)
人工智能(229987) 人工智能(229987)

深度學習的硬件架構解析

深度學習在這十年，甚至是未來幾十年內都有可能是最熱門的話題。雖然深度學習已是廣為人知了，但它并不僅僅包含數學、建模、學習和優化。算法必須在優化后的硬件上運行，因為學習成千上萬的數據可能需要長達幾周的時間。因此，深度學習網絡亟需更快、更高效的硬件。接下來，讓我們重點來看深度學習的硬件架構。

2016-11-18 16:00:37

5544

1小時玩轉AI語音識別

`報名鏈接：http://t.elecfans.com/live/563.html直播主題及亮點本次直播講解AI語音識別核心技術知識以及語音識別系統架構，現場實操寫代碼實現語音采集、語音傳輸與解析

2018-09-19 13:40:42

AI芯片熱潮和架構創新是什么

魏少軍談AI芯片熱潮和架構創新透露清華Thinker芯片將獨立融資

2020-04-24 11:29:35

AI芯片熱潮和架構創新有什么作用

魏少軍談AI芯片熱潮和架構創新透露清華Thinker芯片將獨立融資

2020-04-23 14:59:04

深度學習推理和計算-通用AI核心

摘要與深度學習算法的進步超越硬件的進步，你如何確保算法明天是一個很好的適合現有的人工智能芯片下發展？，這些人工智能芯片大多是為今天的人工智能算法算法進化，這些人工智能芯片的許多設計都可能成為甚至在

2020-11-01 09:28:57

解析深度學習：卷積神經網絡原理與視覺實踐

2020-06-14 22:21:12

谷歌深度學習插件tensorflow

前段時間忙著研究Zedboard，這幾天穿插著加入Python的深度學習的研究，最近使用谷歌的tensorflow比較多，而且官方出了中文教程，比較給力，下面在Windows10下安裝一下

2018-07-04 13:46:51

AUTOSAR架構深度解析精選資料分享

AUTOSAR架構深度解析本文轉載于：AUTOSAR架構深度解析AUTOSAR的分層式設計，用于支持完整的軟件和硬件模塊的獨立性(Independence)，中間RTE(Runtime Environment)作為虛擬功能...

2021-07-28 07:02:13

AUTOSAR架構深度解析精選資料推薦

AUTOSAR架構深度解析本文轉載于：AUTOSAR架構深度解析目錄AUTOSAR架構深度解析AUTOSAR分層結構及應用軟件層功能應用軟件層虛擬功能總線VFB及運行環境RTE基礎軟件層(BSW)層

2021-07-28 07:40:15

C語言深度解析

C語言深度解析，本資料來源于網絡，對C語言的學習有很大的幫助，有著較為深刻的解析，可能會對讀者有一定的幫助。

2023-09-28 07:00:01

I2C通信設計深度解析

2012-08-12 21:31:58

STM32軟件架構是由哪些部分組成的

STM32軟件架構設計的意義是什么？怎樣去設計STM32軟件的架構呢？

2021-10-18 07:43:22

STM32軟件架構設計的意義

STM32軟件架構1、架構設計的意義（1）應用代碼邏輯清晰，且避免代碼冗余；（2）代碼通用性，方便軟件高速、有效的移植；（3）各功能獨立，低耦合高內聚；2、總體架構圖3、結構層說明4、遵循規則5、優劣評估6、STM32實例說明

2021-08-04 07:23:12

Tir-RK3399+movidius AI深度學習評估板有哪些性能呢

Tir-RK3399+movidius是什么呢？Tir-RK3399+movidius AI深度學習評估板有哪些性能呢？RK3399的板卡配置主要有哪幾點呢？

2022-03-07 07:51:05

Zstack中串口操作的深度解析(一)

本帖最后由 eehome 于 2013-1-5 10:06 編輯 Zstack中串口操作的深度解析(一)歡迎研究ZigBee的朋友和我交流。。。

2012-08-12 21:11:29

java經典面試題深度解析

免費視頻教程：java經典面試題深度解析對于很多初學者來說，學好java在后期面試的階段都沒什么經驗，為了讓大家更好的了解面試相關知識，今天在這里給大家分享了一個java經典面試題深度解析的免費視頻

2017-06-20 15:16:08

kintex產品架構設計文檔（成為架構師也是電子人不錯的選...

kintex產品架構設計文檔（成為架構師也是電子人不錯的選擇） ROCE（儒仕）,用心為每一位電子人！Xilinx7系列普及講座，架構師設計方案模板，交流學習內容請下載附件pdf，更多內容請登錄ww..rocetech..com

2013-04-30 16:41:13

《 AI加速器架構設計與實現》+學習和一些思考

激活函數激活函數很多，如Sigmod，ReLU等等，這里不放圖了。一些典型設計系統架構設計具體實現

2023-09-16 11:11:01

《 AI加速器架構設計與實現》+第2章的閱讀概括

首先感謝電子發燒友論壇提供的書籍和閱讀評測的機會。拿到書，先看一下封面介紹。這本書的中文名是《AI加速器架構設計與實現》，英文名是Accelerator Based on CNN Design

2023-09-17 16:39:45

《 AI加速器架構設計與實現》+第一章卷積神經網絡觀后感

《 AI加速器架構設計與實現》+第一章卷積神經網絡觀感 ? ?在本書的引言中也提到“一圖勝千言”，讀完第一章節后，對其進行了一些歸納（如圖1），第一章對常見的神經網絡結構進行了介紹，舉例了一些結構

2023-09-11 20:34:01

【AI專家講座】不懂編程沒關系，邀請您來學AI

***分公司就職，主攻計算機架構設計，曾任職于AccessCapital公司(西班牙)，任軟件架構師?！?兩岸AI 機器人共享平臺聯盟主席，現任***銘傳大學設計思維(Design Thinking

2019-04-18 15:51:32

【CC3200AI實驗教程11】瘋殼·AI語音人臉識別-AI語音系統架構

CC3200AI實驗教程——瘋殼·開發板系列AI語音系統架構AI語音識別系統的系統架構如圖1.0.1所示。圖1.0.1 AI語音系統結構用戶通過語音采集板卡采集到在駐極體端的語音，通過I2S接口

2022-08-30 14:54:38

【CC3200AI實驗教程14】瘋殼·AI語音人臉識別-AI人臉系統架構

CC3200AI實驗教程——瘋殼·開發板系列AI人臉系統架構AI人臉識別系統由7大塊組成，分別是攝像頭、CC3200、串口調試助手、路由器、公網、服務器、數據庫以及百度AI組成。AI人臉識別系統

2022-08-31 16:35:59

【HarmonyOS HiSpark AI Camera】基于深度學習的目標檢測系統設計

、并行處理、從目標檢測算法嵌入式平臺的實現的設計要求出發，基于深度學習的目標檢測算法特點，采用軟硬件協同設計思想進行總體架構設計，使得可編程邏輯部分可進行參數可配置以處理不同參數和結構的網絡層，具有一定

2020-09-25 10:11:49

【WEBENCH 大賽作品】WEBENCH FPGA 電源架構設計

使用WEBENCH? FPGA Power Architect 設計工具，進行FPGA的電源架構設計作品地址：http://www.asorrir.com/uploads/ComDoc/20150716/55a754d88f528.zip

2015-07-16 14:54:22

【WEBENCH 大賽作品】WEBENCH Processor Power Architect 電源架構設計

利用WEBENCH Processor Power Architect 設計工具進行設計，基于TPS54335A原件的電源架構設計。輸入電壓為直流10V-20V，輸出電壓為3.3V，2A作品地址

2015-07-16 14:24:48

【書籍評測活動NO.18】 AI加速器架構設計與實現

經驗總結圖解NPU算法、架構與實現，從零設計產品級加速器當前，ChatGPT和自動駕駛等技術正在為人類社會帶來巨大的生產力變革，其中基于深度學習和增強學習的AI計算扮演著至關重要的角色。新的計算范式需要

2023-07-28 10:50:51

【免費直播】AI芯片專家陳小柏博士，帶你解析AI算法及其芯片操作系統。

、Fine-tune3、SOC系統軟硬件資源介紹4、系統平臺架構設計參與直播用戶將獲得哪些知識點：1、AI算法場景應用介紹2、AI算法設計、訓練3、AI芯片操作系統層知識點分析4、模塊化開發對于AI芯片

2019-11-07 14:03:20

【原創】Dex分包架構設計—實現安卓熱修復

【原創】Dex分包架構設計—實現安卓熱修復回復即可獲取下載鏈接[hide=d15]鏈接:http://pan.baidu.com/s/1c2fYJZy 密碼:iw16 學習群：150923287 [/hide]

2016-07-26 17:50:30

【汽車電氣架構設計軟件】

因工作需要，求整車電氣架構設計軟件——PREEvision（盜版），價格可議，WetChat/***，非誠勿擾

2017-04-18 14:20:20

【設計技巧】FPGA架構設計漫談

/u/97edd21e88（一）流驅動和調用式架構設計是每個FPGA工程師都要面臨的第一關。經常有這樣的項目，需求分析，架構設計匆匆忙忙，號稱一兩個月開發完畢，實際上維護項目就花了一年半時間。主要包括

2019-08-02 08:30:00

為何要進行嵌入式軟件架構設計？如何設計？

為何要進行嵌入式軟件架構設計？如何進行嵌入式軟件架構設計？

2021-11-01 06:31:26

功能安全---AUTOSAR架構深度解析精選資料分享

AUTOSAR架構深度解析本文轉載于：AUTOSAR架構深度解析AUTOSAR的分層式設計，用于支持完整的軟件和硬件模塊的獨立性(Independence)，中間RTE(Runtime

2021-07-23 08:34:18

基于ARM架構設計的M1芯片

提升巨大，也讓配備 M1 芯片的 Mac 跨入完全不同的層次。由于M1芯片是基于ARM架構設計，所以無法安裝x86版本的Windows。著名的虛擬機軟件parallels desktop推出了基于m1

2021-07-23 09:02:13

基于LM3444方案的led架構設計

【WEBENCH 大賽作品】基于LM3444方案的led架構設計

2018-08-29 17:26:09

基于分級安全的OpenHarmony架構設計

本文源自 OpenHarmony TSC 官方《峰會回顧第1期 | 基于分級安全的OpenHarmony架構設計》演講嘉賓 | 付天福回顧整理 | 廖濤排版校對 | 李萍萍嘉賓簡介付天福

2023-08-04 10:39:43

基于超低功耗架構設計的智能手表平臺W307

近期，紫光展銳新一代智能手表平臺 W307發布，基于超低功耗架構設計，采用亞米級高精度定位方案，高集成 4G 全網通，將為用戶帶來更豐富的智能體驗。

2020-11-23 14:09:03

如何實現TSINGSEE青犀視頻EasyRTC在線視頻會議管理系統架構設計？

如何實現TSINGSEE青犀視頻EasyRTC在線視頻會議管理系統架構設計？

2022-02-10 06:09:07

對嵌入式系統中的架構設計的理解

【閱讀這篇文章，你能了解到什么】1. 從事嵌入式開發12年的我，對架構設計的理解；2. 對嵌入式系統中的架構設計要刻意訓練；3. 嵌入式系統開發過程中的一些小技巧；4. 一個用于智能家居項目

2021-11-08 08:23:33

嵌入式UI架構設計相關資料下載

嵌入式UI架構設計漫談

2021-11-08 07:49:20

嵌入式軟件架構設計常見的誤解

1.常見的誤解1.1小型系統不需要架構設計架構應當滿足當前需求并適當的考慮重用和變更1.2 敏捷開發不需要框架極限編程，敏捷開發的出現使一些人誤以為軟件開發無需再做架構了。這是一個很大的誤解。敏捷開發是在傳統瀑布式開發流程出現明顯弊端后提出的解決方案，所以它必然有一個更高的起...

2021-10-27 09:22:55

嵌入式軟件架構設計的目的及思路

【1】架構設計的目的1.應用的代碼邏輯清晰，且避免重復造輪子。2.方便軟件的移植。3.最大限度地復用。4.高內聚低耦合。【2】嵌入式架構思路1.功能模塊化設計獲得需求------->歸類

2021-11-08 06:41:50

嵌入式軟件架構設計資料分享

作為程序員，我覺得如果要走的更遠必須要成為工程師，畢竟年齡和資歷都擺在那里了。所以就讓我這個老程序員淺談一下嵌入式軟件架構設計。我參考的也是一篇博文。原圖如下![在這里插入圖片描述](?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,s...

2021-12-24 07:09:18

影響RF系統架構設計的參數特性探討

簡介今天可以使用的高集成度先進射頻設計可讓工程師設計出性能水平超過以往的RF系統，阻隔、靈敏度、頻率控制和基帶處理領域的最新進展正在影響RF系統架構設計，本文旨在探討某些參數特性，以及它們對系統性能的影響。

2019-06-21 07:08:26

手把手教你設計人工智能芯片及系統--（全階設計教程+AI芯片FPGA實現+開發板）

有利于學員更深入理解AI芯片原理，并且能掌握工程實現；3、AI芯片設計門檻高，涉及AI算法、芯片架構設計、芯片測試以及系統搭建等高級技巧。本課程將提供包含AI算法的訓練和執行優化、AI芯片架構設計，AI

2019-07-19 11:54:01

招聘：模擬架構設計師（高速接口方向）

[獵頭職位]國家重要芯片研發中心職位：模擬架構設計師（高速接口方向）【崗位職責】1.主責高速模擬電路設計，包括架構設計、電路設計、仿真、測試、調試及改進；2.根據客戶需求定義系統需求、產品規格；3.

2015-02-27 10:50:50

機甲大師機器人控制（三）：軟件架構設計精選資料推薦

本文是機甲大師機器人控制的系列博客之一。在功能分析的基礎上，本文設計軟件的架構。文章目錄1 開發階段2 軟件架構設計2.1 頂層子系統2.1.1 子系統模型2.1.2 輸入接口2.2 電機控制子系統

2021-08-18 07:01:44

機甲大師機器人的軟件架構設計如何實現？

機甲大師機器人的軟件架構設計如何實現？

2021-11-22 07:55:21

汽車電子電氣架構設計及優化措施

我國公路建設事業的蓬勃發展導致在汽車行業中的電子電氣架構設計越來越體現消費者對汽車人性化、舒適化與美觀性的現實需求。設計汽車的電子電氣架構是一項工程量較大的工作，它涉及了硬件、軟件、網絡、線束等方面

2016-10-18 22:10:19

軟件架構設計教程

軟件架構設計教程

2016-09-26 15:27:06

軟件架構設計的三個維度

架構設計是一個非常大的話題，不管寫幾篇文章，接觸到的始終只是冰山一角，更多的是實踐中去體會。這篇文章主要介紹面向對象OO、面向方面AOP和面向服務SOA這三個要素在架構設計中

2011-06-22 10:09:12

1320

ARM嵌入式應用程序架構設計工具-DLTools

ARM嵌入式應用程序架構設計實例精講--ARM嵌入式應用程序架構設計工具-DLTools

2016-07-08 11:08:19

ARM嵌入式應用程序架構設計工具-字庫

ARM嵌入式應用程序架構設計實例精講--ARM嵌入式應用程序架構設計工具-字庫

2016-07-08 11:08:19

基于五級流水線的HEVCDBF模塊硬件架構設計

基于五級流水線的HEVCDBF模塊硬件架構設計_沈高峰

2017-01-07 21:28:58

使用Simulink實現軟件架構設計

　　本文參考ISO26262的要求，同時考慮AUTOSAR代碼生成的兼容性，給出使用Simulink實現軟件架構設計的一些建議。

2017-09-19 14:40:46

基于ARMCortex_M3核的SoC架構設計及性能分析

2017-09-29 09:26:39

軟件架構設計的三個維度解析

架構設計是一個非常大的話題，不管寫幾篇文章，接觸到的始終只是冰山一角，更多的是實踐中去體會。這篇文章主要介紹面向對象OO、面向方面AOP和面向服務SOA這三個要素在架構設計中的位置與作用。 架構設

2017-10-29 11:12:55

軟件架構設計的三個維度

2017-12-01 11:57:02

488

一圖深度解析IoT領域4大“戰役”

深度解析IoT領域4大“戰役”

2018-01-22 10:25:31

4556

谷歌瘋狂速度推進AI革命，讓人們在深度學習系統中實現民主化

最近幾年，深度學習已經成為越來越熱門的技術，但很少有公司能像谷歌及其母公司Alphabet那樣，利用深度學習技術在如此多的領域取得巨大進展，并將其完全融入到操作業務中去。為了與谷歌推動其創新的努力

2018-05-11 10:10:00

654

介紹WEBENCH 電源架構設計工具使用方法與技巧

WEBENCH 電源架構設計工具概述（簡短版本）

2018-08-06 01:33:00

3030

如何使用Autosar的進行整車電子電氣架構設計詳細方法概述

提出一種基于Autosar理念的整車電子電氣架構設計方法。通過整車需求定義、原子邏輯單元搭建實現整車功能邏輯的實體化，然后利用模型設計分析方法，將功能需求分配到各個電子控制單元，利用

2018-11-01 08:00:00

從云端到終邊端，谷歌AI芯片的進階之路

據悉，該芯片是谷歌與三星聯合開發，采用5nm工藝制造，“2+2+4”三架構設計的8核CPU集群，以及搭載全新ARM公版架構的GPU，同時在ISP和NPU上集成了谷歌Visual Core AI視覺處理器。這讓谷歌的終端芯片能夠更好地支持AI技術，比如大幅提升谷歌助手的交互體驗。

2020-05-11 15:02:38

2879

干貨：20個MySQL開源數據庫架構設計原則

干貨：20個MySQL開源數據庫架構設計原則

2020-08-28 10:57:29

3062

系統架構設計的詳細講解

上一篇,我們討論了故障度量和安全機制的ASIL等級。本篇我們來聊一聊系統架構設計相關內容。01系統架構設計和TSC當我們開始寫TSC時,會涉及到下圖中一系列的內容:當我們完成前三期(鏈接見文末)提到的安全機制規范后,我們就要開始整理好所有的安全需求并在系統架構設計(SysArchiD)中來實現它們

2020-12-24 14:33:08

1356

如何升級架構設計思維

孫玄，江湖人稱“玄姐”，前58集團技術委員會主席，前轉轉二手交易平臺首席架構師。今天想跟你聊點兒企業里那些年薪百萬的架構師，他們的架構設計思維是如何升級的。話不多說，咱們直接來聊點兒干的！整理

2021-01-11 10:39:44

1881

SWE.2的軟件架構設計

過程ID:SWE.2 過程名稱:軟件架構設計過程目的:軟件架構設計過程目的是建立一個架構設計，識別哪些軟件需求應該分配給軟件的哪些要素，并根據已定義的標準評估軟件架構設計。 ? 過程結果

2021-01-11 10:36:40

2401

SYS.3的系統架構設計

系統架構設計過程ID:SYS.3 過程名稱:系統架構設計 ? 過程目的:系統架構設計過程目的，是建立系統架構設計，并確定將哪些系統需求分配給系統的哪些要素，以及根據已定義的準則評估系統架構設

2021-02-13 16:02:00

2318

幾種軟件架構設計的思維方式

一個優秀的程序員要想成為一名優秀的架構設計師，就改變編程的思維，學會使用架構設計的思維方式。

2021-03-08 15:30:12

4619

探究嵌入式開發是否需要架構設計？

閱讀這篇文章，你能了解到什么 1. 從事嵌入式開發12年的我，對架構設計的理解； 2. 對嵌入式系統中的架構設計要刻意訓練； 3. 嵌入式系統開發過程中的一些小技巧； 4. 一個用于智能家居項目

2021-04-05 09:49:00

3286

深度：嵌入式系統的軟件架構設計！資料下載

電子發燒友網為你提供深度：嵌入式系統的軟件架構設計！資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

2021-04-25 08:43:34

微服務架構有哪些_微服務架構設計模式

小伙伴們知道常用的微服務架構框架有哪些嗎？上回我們介紹了一些常用的微服務架構設計模式，這次我們就來了解一下一些常用的微服務架構框架吧。

2021-05-17 17:06:13

27902

基于Simulink的混動/電動汽車統一模型架構設計與應用

基于Simulink的混動/電動汽車統一模型架構設計與應用說明。

2021-06-03 15:05:47

復雜裝備的PHM數據體系架構設計方案

復雜裝備的PHM數據體系架構設計方案

2021-06-25 16:02:48

基于無線寬帶的林業監控網絡架構設計方案

基于無線寬帶的林業監控網絡架構設計方案

2021-06-29 16:56:54

面向運載火箭能源子系統的架構設計方法

面向運載火箭能源子系統的架構設計方法

2021-06-30 16:57:43

嵌入式UI架構設計漫談

2021-11-03 17:36:05

嵌入式開發需要架構設計嗎？

2021-11-03 18:06:02

STM32軟件架構設計

2021-11-06 09:05:58

ASPICE 和26262中的軟件架構解析

ASPICE 和26262中ASPICE 和26262中的軟件架構解析的軟件架構解析

2022-10-25 11:53:34

703

如何寫一個架構設計

架構設計是一個非常微妙的設計領域，它是完全建立在形而上的邏輯上的，它是抽象的，非具象的。但這種抽象必須要以可以實施為底線，否則就淪為紙上談兵了。

2022-10-31 10:55:57

690

深度解析PiN二極管基本原理及設計應用

2022-12-21 10:12:24

1053

嵌入式開發需要架構設計嗎

在招聘網站上的一些架構設計的崗位，都是針對 Web 方向的，卻很少看到招聘嵌入式崗位的系統架構師的崗位。

2023-02-14 13:44:27

446

架構與微架構設計

下面將從芯片的架構設計、微架構設計、使用設計文檔、設計分區、時鐘域和時鐘組、架構調整與性能改進、處理器微架構設計策略等角度進行說明，并以視頻H.264編碼器設計為例。

2023-05-08 10:42:28

817

深度解析昇騰AI全棧架構設計

面向計算機視覺、自然語言處理、推薦系統、類機器人等領域量身打造了基于“達芬奇（DaVinci）架構”的昇騰（Ascend）AI處理器，開啟了智能之旅。

2023-05-30 09:54:06

1088

深度解析如何管控SMT回流焊爐溫曲線

2023-06-21 09:48:53

745

最強科普！深度解析華為云盤古大模型

搭檔完成復雜任務預測臺風路徑降低災害損失幫助縮短藥物研發周期 …… 此次發布有諸多新升級更為客戶提供了“開箱即用”的模型服務簡直就是一個AI大禮包！一支視頻為你深度解析盤古大模型硬實力！你想了解的都在這兒原文標題：最強科普！深度解析華為云盤古

2023-07-14 15:20:03

1334

NetApp VMware和Broadcom驗證架構設計

電子發燒友網站提供《NetApp VMware和Broadcom驗證架構設計.pdf》資料免費下載

2023-08-23 15:17:24

SWE.2軟件架構設計

過程ID : SWE.2 過程名稱 : 軟件架構設計過程目的 : 軟件架構設計過程目的是建立一個架構設計，識別哪些軟件需求應該分配給軟件的哪些要素，并根據已定義的標準評估軟件架構設計。過程結果

2023-08-24 09:43:48

447

商城庫存系統中心架構設計與實踐案例

本文探討的vivo官方商城庫存架構設計，從整個vivo大電商庫存架構來看，vivo官方商城庫存系統涉及銷售層內部架構以及銷售層與調度層的交互。

2023-08-30 10:59:00

506

揭秘GPU：高端GPU架構設計的挑戰

在計算領域，GPU（圖形處理單元）一直是性能飛躍的代表。眾所周知，高端GPU的設計充滿了挑戰。GPU的架構創新，為軟件承接大模型訓練和推理場景的人工智能計算提供了持續提升的硬件基礎。GPU架構設

2023-12-21 08:28:00

381

華為企業架構設計方法及實例

企業架構是一項非常復雜的系統性工程。公司在充分繼承原有架構方法基礎上，博采眾家之長，融合基于職能的業務能力分析與基于價值的端到端流程分析，將”傳統架構設計（TOGAF）”與“領域驅動（DDD）”方法相結合。

2024-01-30 09:40:00

180

谷歌推出AI擴散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴散模型Lumiere，這款模型基于谷歌自主研發的“Space-Time U-Net”基礎架構，旨在實現視頻生成的一次性完成，同時保證視頻的真實性和動作連貫性。

2024-02-04 13:49:39

548

交換芯片架構設計

交換芯片架構設計是網絡通信中的關鍵環節，它決定了交換機的性能、功能和擴展性。

2024-03-18 14:12:38

102

交換芯片架構設計

交換芯片的架構設計是網絡設備性能和功能的關鍵。一個高效的交換芯片架構能夠處理大量的數據流量，支持高速數據傳輸，并提供先進的網絡功能。

2024-03-21 16:28:25

已全部加載完成

搜索歷史

深度解析谷歌的AI架構設計

評論