女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

千萬級損失預警:你的DeepSeek部署正踩中這個隱形雷區

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2025-03-05 17:37 ? 次閱讀

近期,DeepSeek 已成為各行業關注的焦點。其卓越的語言理解和生成能力使其能夠精準處理各種復雜的自然語言任務,無論是文本生成、語義理解還是智能對話,都能輕松應對。隨著 DeepSeek 的迅速走紅,眾多廠商紛紛加入這一技術浪潮,積極接入這一強大的語言模型。從互聯網科技巨頭到傳統制造業企業,從金融行業到教育領域,DeepSeek 的應用范圍不斷擴大,成為推動企業數字化轉型和智能化升級的重要力量。

在此趨勢下,越來越多的企業開始選擇私有化部署 DeepSeek,以更好地滿足自身業務需求。私有化部署不僅能夠滿足企業對數據安全和隱私保護的嚴格要求,還能根據企業的特定業務進行定制化優化。然而,在企業熱衷于私有化部署 DeepSeek 的過程中,有一個關鍵細節容易被忽視,那就是網絡配置。網絡作為連接訓練和推理集群節點的關鍵要素,其穩定性、速度和效率直接關系到集群的整體性能。無論是訓練階段節點間的頻繁參數同步,還是推理過程中模型數據的快速交互,良好的網絡環境都是確保集群通信順暢、高效的必要條件。如果網絡配置不當,即使投入了強大的算力資源,也可能導致集群通信性能下降,進而影響 DeepSeek 的正常運行和業務的順利開展。

為此,星融元憑借其在開放網絡領域的深厚積累,為客戶提供了一套完整的網絡解決方案。該方案包括 25G-800G 規格的 RoCE 交換機及 EasyRoCE Toolkit 等實用工具,精準對接 AI 與大模型領域的網絡需求,助力客戶在 AI 浪潮中搶占先機,攜手共鑄行業優勢地位。

網絡連接方式的升級

大模型訓練過程中數據并行、張量并行、流水線并行是主要的流量來源,同一服務器不同GPU、不同服務器不同GPU之間都需要高效準確的數據傳輸,因此,GPU卡(而非服務器)為單位的通信模式形成了服務器多網卡多出口的連接方式,與傳統數據中心單一出口連接方式不同。

并行計算涉及多個計算節點(如CPU、GPU等)協同工作,以加速大規模計算任務。集合通信庫是實現這種協同工作的關鍵組件,集合通信庫提供了高層次的API、屏障(barrier)、集體通信原語(如廣播、歸約等)等同步機制,用于協調節點之間的執行用于在節點之間傳輸數據,確保數據的快速和可靠傳遞。

NVIDIA NCCL是NVIDIA提供的開源通信庫,是目前大廠主流使用的集合通信庫。在實際應用中,NCCL和MPI常常結合使用。MPI負責節點之間的通信,而NCCL負責GPU之間的通信,通過兩者的協同工作,實現高效的并行計算。

NCCL自2.12版本起引入了 PXN 功能,即 PCI × NVLink。取代了原先需要通過CPU的QPI調用和CPU進行buffer交互。PXN 利用節點內 GPU 之間的 NVIDIA NVSwitch 連接,首先將數據移動到與目的地位于同一軌道上的 GPU 上,然后將其發送到目的地而無需跨軌道傳輸,從而實現消息聚合和網絡流量優化。

  • NVLINK英偉達(NVIDIA)開發并推出的一種總線及其通信協議。NVLINK 采用點對點結構、串行傳輸,用于中央處理器(CPU)與圖形處理器(GPU)之間的連接,也可用于多個圖形處理器(GPU)之間的相互連接。
  • NVSWITCH :是一種高速互連技術,同時作為一塊獨立的 NVLINK 芯片,其提供了高達 18 路 NVLINK 的接口,可以在多個 GPU 之間實現高速數據傳輸

軌道優化拓撲即是適應這一通信特征,將不同服務器上位于相同位置(軌道)的NIC連接到同一臺交換機上。

由于每個服務器有8張連接計算平面的網卡,整個計算網絡被從物理上劃分為8個獨立并行的軌道(Rail)。由此,智算業務產生的并行通信需求(All Reduce、All-to-All 等)可以用多個軌道并行地傳輸,并且其中大部分流量都聚合在軌道內(只經過一跳),只有小部分流量才會跨軌道(經過兩跳),大幅減輕了大規模集合網絡通信壓力。

軌道優化聚合了同一對 NIC 之間傳遞的消息,得以最大限度地提高有效消息速率和網絡帶寬。反觀NCCL 2.12 之前,同樣的端到端通信將經過三跳交換機(上圖的L0、S1 和 L3),這可能會導致鏈路爭用并被其他流量拖慢。

服務器/交換機側的路由配置

首先是需要明確GPU卡的連接方式。如果是N卡,你可以使用nvidia-smi topo -m的命令直接查看。但綜合考慮成本因素,要想在更為通用的智算環境下達到GPU通信最優,最好的辦法還是在采購和建設初期就根據業務模型特點和通信方式預先規劃好機內互聯(GPU-GPU、GPU-NIC)和機間互聯(GPU-NIC-GPU),避免過早出現通信瓶頸,導致昂貴算力資源的浪費。

智算環境下以GPU卡(而非服務器)為單位的通信模式形成了服務器多網卡多出口環境的路由策略,通常會有8張網卡用于接入參數/計算網,每張網卡位于各自的軌道平面上。為避免回包通信失敗,服務器上的網卡配置需要利用Linux多路由表策略路由機制進行路由規劃,這與傳統云網的配置方式完全不同。

第一步是按照組網規劃和網段規劃,進行IP地址規劃和Rail平面劃分。在我們的EasyRoCE Toolkit 下的AID工具(AI Infrastructure Descriptor,AI基礎設施藍圖規劃)中,Notes字段用于標注Rail編號,即0代表Rail平面0、1代表Rail平面1,以此類推。

截取自星融元 EasyRoCE AID 工具

確認好了上述信息,到這里其實可以開始手動配置了,但你也可以使用另一個EasyRoCE的IRM工具(In-node Route Map,GPU內部路由規劃器)。IRM 從AID 生成的配置文件中獲取適合當前集群環境的路由規劃信息,并且自動化地對集群中的所有GPU服務器進行IP和策略路由配置。

CLos架構下,各交換節點分布式運行和自我決策轉發路徑容易導致無法完全感知全局信息,在多層組網下流量若發生Hash極化(經過2次或2次以上Hash后出現的負載分擔不均)將拖慢集群性能。

為解決滿足AI集群規模化部署的通信需求,一般來說我們會通過規范流量路徑來解決性能和規模方面的痛點(例如負載均衡、租戶隔離等),按照如下轉發邏輯去配置RoCE交換機:

  1. 跨 Spine上行流量進入Leaf后根據源IP和是否為跨Spine遠端流量,執行策略路由轉發給Spine,每網卡對應一個接口:
  • 在上下行流量1:1無收斂的情況下,Leaf的每個下行端口綁定一個上行端口;
  • 在n:1的情況下,上下行端口以倍數關系(向上取整)形成n:1映射。
  1. 跨Spine上行流量在Spine上按照標準L3邏輯轉發,在軌道組網中多數流量僅在軌道內傳輸,跨軌道傳輸流量較小,網絡方案暫不考慮Spine上擁塞的情況(由GPU Server集合通信處理)。
  2. 跨 Spine下行流量進入Leaf后根據 default 路由表指導轉發。

當然,這里也可以使用EasyRoCE Toolkit 下的PPD工具(主動路徑規劃,Proactive Path Definer)自動生成以上配置。以下為PPD工具運行過程。

正在生成配置文件
100%[#########################]
Configuring leaf1's port 
leaf1的端口配置完成 
Generating leaf1's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
Configuring leaf2's port 
leaf2的端口配置完成 
Generating leaf2's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
Configuring leaf3's port 
leaf3的端口配置完成 
Generating leaf3's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
Configuring leaf4's port 
leaf4的端口配置完成 
Generating leaf4's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
show running config
是否需要查看生成的配置(Y|N):
是否需要查看生成的配置(Y|N):
是否需要查看生成的配置(Y|N):

PPD可以獨立運行在服務器上,也可以代碼形式被集成到第三方管理軟件中,利用AID工具來生成最終配置腳本,將配置呈現在統一監控面板(例如Prometheus+Grafana)進行瀏覽和核對。

對網絡設備的要求

星融元CX-N系列交換機正是為智算中心AI訓練場景而生的超低時延以太網交換機——在保持極致性能的同時,實現可編程、可升級的能力,與計算設備形成協同,共同打造10萬級別的計算節點互聯,將數據中心重構為可與超級計算機媲美的AI超級工廠。

  • 最大支持64個800G以太網接口,共51.2T交換容量。
  • 超低時延 ,在800G端口上實現業界最強的560ns cut-through時延。
  • 全端口標配支持RoCEv2 ,支持Rail-only,全連接Clos以及200G/400G混合組網,靈活適應不同的算力中心建設方案
  • 200+ MB大容量高速片上包緩存 ,顯著減小集體通信時RoCE流量的存儲轉發時延。
  • Intel至強CPU + 大容量可擴展內存,運行持續進化的企業級SONiC ——AsterNOS網絡操作系統,并通過DMA直接訪問包緩存,對網絡流量進行實時加工。
  • INNOFLEX可編程轉發引擎 ,可以根據業務需求和網絡狀態實時調整轉發流程,最大程度避免網絡擁塞和故障而造成的丟包。
  • F LASHLIGHT精細化流量分析引擎 ,實時測量每個包的延遲和往返時間等,經過CPU的智能分析,實現自適應路由和擁塞控制。
  • 10納秒級別的PTP/SyncE時間同步,保證所有GPU同步計算。
  • 開放API ,通過REST API開放全部功能給AI數據中心管理系統,與計算設備相互協同,實現GPU集群的自動化部署。

詳細信息請前往星融元官網https://asterfusion.com/product/cx-n/

參考鏈接:

https://blog.csdn.net/qq_41904778/article/details/145930361

https://blog.csdn.net/qq_40214669/article/details/143307857

https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/

https://mp.weixin.qq.com/s/yQn56hh56FE1XDGrrKme7Q

https://mp.weixin.qq.com/s/vZL-4Cpb1BFyH1CpVw3IJQ

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 以太網
    +關注

    關注

    40

    文章

    5582

    瀏覽量

    174683
  • 交換機
    +關注

    關注

    21

    文章

    2720

    瀏覽量

    101322
  • 網絡
    +關注

    關注

    14

    文章

    7761

    瀏覽量

    90315
  • 英偉達
    +關注

    關注

    22

    文章

    3920

    瀏覽量

    93075
  • DeepSeek
    +關注

    關注

    1

    文章

    772

    瀏覽量

    1300
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    ORinNano離線部署Deepseek R1大模型教程

    ORinNano離線部署Deepseek R1大模型教程
    的頭像 發表于 04-10 15:32 ?267次閱讀
    ORinNano離線<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> R1大模型教程

    DeepSeek在昇騰上的模型部署的常見問題及解決方案

    2024年12月26日,DeepSeek-V3橫空出世,以其卓越性能備受矚目。該模型發布即支持昇騰,用戶可在昇騰硬件和MindIE推理引擎上實現高效推理,但在實際操作,部署流程與常見問題困擾著不少
    的頭像 發表于 03-25 16:53 ?691次閱讀
    <b class='flag-5'>DeepSeek</b>在昇騰上的模型<b class='flag-5'>部署</b>的常見問題及解決方案

    DeepSeek企業部署RakSmart裸機云環境準備指南

    RakSmart裸機云環境中部署DeepSeek的企業環境準備指南,內容涵蓋關鍵步驟和注意事項,主機推薦小編為您整理發布DeepSeek企業
    的頭像 發表于 03-24 10:07 ?259次閱讀

    【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試

    【幸狐 Omni3576 邊緣計算套件測評】DeepSeek 部署及測試 本文介紹了幸狐 Omni3576 邊緣計算套件實現 DeepSeek 部署及測試的相關流程,包括模型介紹、
    發表于 03-21 19:31

    采購GUTOR UPS備品備件,隱藏的“雷區了解嗎?

    在GUTOR UPS備品備件采購之路上,困難重重,選型、渠道甄別、成本把控、安裝部署、售后保障,樁樁件件都是棘手難題。隱藏的“雷區了解嗎?
    發表于 03-21 16:08

    DeepSeek企業部署服務器資源計算 以raksmart裸機云服務器為例

    以RakSmart裸機云服務器為例,針對DeepSeek企業部署的服務器資源計算指南,涵蓋GPU/CPU/內存/存儲/網絡等核心維度的詳細計算方法與配置推薦,主機推薦小編為您整理發布以raksmart裸機云服務器為例,
    的頭像 發表于 03-21 10:17 ?272次閱讀

    DeepSeek企業部署實戰指南:以Raksmart企業服務器為例

    隨著人工智能技術的快速發展,DeepSeek作為一款強大的AI工具,正在成為企業智能化轉型的重要驅動力。本文將結合Raksmart企業服務器的實際案例,詳細解析DeepSeek的企業部署
    的頭像 發表于 03-12 11:33 ?464次閱讀

    HarmonyOS NEXT開發實戰:DevEco StudioDeepSeek的使用

    DeepSeek Token 注冊DeepSeek賬號:訪問DeepSeek官網,注冊并登錄您的賬號。 創建應用:在DeepSeek控制臺中創建API Key,并及時保存,出于安全訪問
    發表于 03-07 14:56

    RK3588開發板上部署DeepSeek-R1大模型的完整指南

    擴展規劃、嵌入式適配等技術維度的突破。 RK3588作為瑞芯微推出的旗艦芯片,憑借多核異構計算能力以及強大的CPU、GPU和NPU性能,成為嵌入式AI應用的理想平臺。DeepSeek
    發表于 02-27 16:45

    華為云發布DeepSeek本地部署方案

    華為云正式推出基于華為云Stack混合云的DeepSeek本地部署方案。
    的頭像 發表于 02-18 10:05 ?894次閱讀

    添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略

    和NPU的利用率,可以看到CPU的占用率已經降了下來,并且調用了NPU的3個核心進行加速推理: 通過以上兩種方法,我們掌握了在 RK3588 開發板上部署并測試 DeepSeek 模型的技能。如果也是
    發表于 02-14 17:42

    ATK-DLRK3588開發板deepseek-r1-1.5b/7b部署指南

    DeepSeek這樣的國產大模型部署在RK3588上時,由于RK3588的強大性能支持,同樣的模型規??梢缘玫礁鼜姶蟮耐评砟芰?、實時性能以及邊緣計算能力。在本篇文章,我們將一口氣教大家從下載模型、轉換模型到
    發表于 02-14 16:33

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    ); 二者均支持API調用,可根據業務需求混合部署(如用V3處理前端交互,R1負責后端計算)。 在電子工程領域選用哪個模型最合適,有其他更好的模型推薦嗎? 在電子工程領域的電路設計與分析場景,模型需要
    發表于 02-14 02:08

    【實測】用全志A733平板搭建一個端側Deepseek算力平臺

    ? 隨著DeepSeek 的蒸餾技術的橫空出世,端側 SoC 芯片上運行大模型成為可能。那么端側芯片跑大模型的效果如何呢?本文將在全志 A733 芯片平臺上部署一個 DeepSeek-R1:1.5B
    發表于 02-13 10:19

    DeepSeek-R1本地部署指南,開啟的AI探索之旅

    春節期間突然被DeepSeek刷屏了,這熱度是真大,到處都是新聞和本地部署的教程,等熱度過了過,簡單記錄下自己本地部署及相關的內容,就當電子寵物,沒事喂一喂:D,不過有能力的還是閱讀論文和部署
    的頭像 發表于 02-08 10:30 ?5147次閱讀
    <b class='flag-5'>DeepSeek</b>-R1本地<b class='flag-5'>部署</b>指南,開啟<b class='flag-5'>你</b>的AI探索之旅