美國(guó)的超級(jí)計(jì)算機(jī)又有新看點(diǎn)了。
據(jù)報(bào)道,Microsoft 和 OpenAI 正在開(kāi)發(fā)一個(gè)大型數(shù)據(jù)中心,以容納一臺(tái)擁有數(shù)百萬(wàn)個(gè)GPU 的專注于AI的超級(jí)計(jì)算機(jī)。The Information報(bào)道稱,該項(xiàng)目的成本可能“超過(guò)1150億美元”,而目前在OpenAI內(nèi)部被稱為“星際之門(mén)”(Stargate)的超級(jí)計(jì)算機(jī)將位于美國(guó)。
該報(bào)告稱,Microsoft將為數(shù)據(jù)中心買(mǎi)單,該數(shù)據(jù)中心可能比當(dāng)今一些最大的運(yùn)營(yíng)中心“成本高出100倍”。Stargate將是兩家公司希望在未來(lái)6年內(nèi)建立的一系列數(shù)據(jù)中心項(xiàng)目中最大的一個(gè),高管們希望在2028年之前運(yùn)行它。
報(bào)告稱,OpenAI和Microsoft正在分階段構(gòu)建這些超級(jí)計(jì)算機(jī),Stargate將是第5階段的系統(tǒng)。The Information的消息人士稱,第4階段的系統(tǒng)成本更低,最早可能在2026年啟動(dòng),并且可能希望在威斯康星州的Mt. Pleasant開(kāi)始。該系統(tǒng)可能需要幾個(gè)Stargate,還需要足夠的電力供應(yīng)(至少幾千兆瓦),以至于Microsoft和OpenAI正在考慮替代能源,例如核能。
消息人士表示,這種規(guī)模的數(shù)據(jù)中心將具有挑戰(zhàn)性,部分原因是現(xiàn)有設(shè)計(jì)需要“將比過(guò)去更多的GPU放入單個(gè)機(jī)架中,以提高芯片的效率和性能,這意味著還要設(shè)計(jì)新穎的方法來(lái)保持良好的散熱性能。
聽(tīng)起來(lái)這些公司也有可能利用這個(gè)設(shè)計(jì)來(lái)擺脫對(duì)英偉達(dá)的依賴。該報(bào)告稱,OpenAI希望避免在Stargate中使用英偉達(dá)的InfiniBand電纜,盡管Microsoft在當(dāng)前的項(xiàng)目中使用它們。OpenAI聲稱它寧愿使用以太網(wǎng)電纜。
很多事情仍有待確定,因此價(jià)格和計(jì)劃似乎都可能發(fā)生變化,目前尚不清楚何時(shí)會(huì)最終確定細(xì)節(jié)。該信息還指出,尚未確定這臺(tái)計(jì)算機(jī)將位于何處,以及它是將構(gòu)建在單個(gè)數(shù)據(jù)中心還是“鄰近的多個(gè)數(shù)據(jù)中心”中。
今年早些時(shí)候,有報(bào)道稱,OpenAI首席執(zhí)行官山姆·阿爾特曼(Sam Altman)雄心勃勃地制造人工智能芯片,并希望籌集多達(dá)7萬(wàn)億美元來(lái)建設(shè)晶圓廠來(lái)生產(chǎn)它們。去年,Microsoft 發(fā)布了專門(mén)用于 AI 項(xiàng)目的 128 核 Arm 數(shù)據(jù)中心 CPU 和 Maia 100 GPU。也有報(bào)道稱,Microsoft為人工智能數(shù)據(jù)中心開(kāi)發(fā)自己的網(wǎng)絡(luò)設(shè)備。隨著人工智能的興起,英偉達(dá)的GPU需求量很大,因此,像Microsoft和OpenAI這樣的公司可能希望有一些其它選擇是有道理的。
“我們一直在規(guī)劃下一代基礎(chǔ)設(shè)施創(chuàng)新,以繼續(xù)推動(dòng)人工智能的發(fā)展,”Microsoft首席通信官弗蘭克·肖(Frank Shaw)告訴The Information,但他沒(méi)有直接評(píng)論該超級(jí)計(jì)算機(jī)計(jì)劃。
Microsoft在與OpenAI的合作中投入了數(shù)十億美元,主要是以計(jì)算能力的形式運(yùn)行其模型。如果Stargate或類似的東西成為現(xiàn)實(shí),隨著投資的規(guī)模越來(lái)越大,而且越來(lái)越復(fù)雜,這種伙伴關(guān)系只會(huì)越來(lái)越深。
美國(guó)超算有哪些?
2023年11月,全球超級(jí)計(jì)算大會(huì)正式公布了第62期全球超級(jí)計(jì)算機(jī)TOP500排行榜,美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Frontier仍保持著第一名位置,中國(guó)的神威·太湖之光和天河二號(hào)A也進(jìn)入了前十五,分別排名第11和第14。
排名第一的Frontier以1.194 EFlop/s的HPL性能繼續(xù)保持領(lǐng)先地位。其搭載了基于最新的HPE Cray EX235a架構(gòu)的2GHz AMD EPYC 64C 處理器,共有8699904個(gè)CPU和GPU核心。此外,F(xiàn)rontier還具有高達(dá)52.59 GFlops/W的額定能效,并可借助于HPE的Slingshot 11網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。
排名第二是美國(guó)阿貢國(guó)家實(shí)驗(yàn)室的Aurora超級(jí)計(jì)算機(jī),其以585.34 PFlop/s的HPL性能殺入榜單。需要指出的是,此次 Aurora 的數(shù)值是在當(dāng)前未完全建成狀態(tài)下提交的,目前僅有計(jì)劃中最終規(guī)模的一半。根據(jù)規(guī)劃,Aurora 在建設(shè)完成后將配備21248個(gè)Intel Xeon Max系列CPU、63744個(gè)Intel Max系列GPU、20.42PB內(nèi)存,峰值性能可達(dá) 2 EFlop / s,遠(yuǎn)超 Frontier。
排名第三的是安裝于微軟美國(guó)Azure云中的Eagle,HPL性能為561.2 PFlop/s,這也是云服務(wù)廠商取得的最高排名。其基于英特爾至強(qiáng)鉑金8480C處理器和英偉達(dá)H100打造。
排名第四的是日本的富岳超級(jí)計(jì)算機(jī),HPL分?jǐn)?shù)為442.01 PFlop/s,基于富士通自研的基于Arm架構(gòu)的 48 核處理器A64FX,總共裝有大約16萬(wàn)個(gè)CPU芯片。
排名第五的是來(lái)自芬蘭卡亞尼歐洲高性能計(jì)算中心的超級(jí)計(jì)算機(jī)LUMI,HPL性能達(dá)379.07 PFlop/s,基于HPE Cray EX235a 架構(gòu),配備了2GHz AMD EPYC 64C 處理器和AMD Instinct MI250X GPU。
排名第六的是意大利 CINECA 的一個(gè) EuroHPC 站點(diǎn)上的 Leonardo 系統(tǒng),HPL性能達(dá) 238.7 Pflop/s。它是一個(gè) Atos BullSequana XH2000 系統(tǒng),處理器為Intel Xeon Platinum 8358 32C 2.6GHz,加速器為 NVIDIA A100 SXM4 40 GB,采用四軌 NVIDIA HDR100 Infiniband 作為互連。
排名全球第七是美國(guó)田納西州橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室(ORNL)的Summit超級(jí)計(jì)算機(jī),由 IBM 打造,目前在 HPL 性能為 148.8 Pflop/s,擁有 4,356 個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備兩個(gè) POWER9 CPU(每個(gè)具有 22 個(gè)核心)和6個(gè) NVIDIA Tesla V100 GPU(每個(gè)含有 80 個(gè) SM),通過(guò) Mellanox 雙軌 EDR InfiniBand 網(wǎng)絡(luò)保持連接。
第八名是西班牙 EuroHPC / 巴塞羅那超級(jí)計(jì)算中心最新安裝的 MareNostrum 5 ACC 超算系統(tǒng),這個(gè) 使用 Xeon Platinum 8460Y 處理器以及 NVIDIA H100 和 Infiniband NDR200,實(shí)現(xiàn)了 183.2 Pflop/s 的 HPL 性能。
排名第九的新 Eos 系統(tǒng)是英偉達(dá)打造的基于DGX SuperPOD 的系統(tǒng),配備Intel Xeon Platinum 8480C 處理器、NVIDIA H100 加速器和 Infiniband NDR400 的 NVIDIA DGX H100,實(shí)現(xiàn)了 121.4 Pflop/s 的性能。
排名第十的是美國(guó)加利福尼亞州勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室的 Sierra 系統(tǒng)。它的架構(gòu)與排名第七的系統(tǒng) Summit 非常相似,由 4,320 個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)配備兩個(gè) POWER9 CPU 和四個(gè) NVIDIA Tesla V100 GPU,可實(shí)現(xiàn) 94.6 Pflop/s 的性能。
此外,GREEN500 排名第一的位置仍然是美國(guó)紐約熨斗研究所的 Henri。該系統(tǒng)的能效等級(jí)為 65.40 GFlops / Watt,同時(shí) HPL 得分為 2.88 PFlops / s。Henri 是一臺(tái)聯(lián)想 ThinkSystem SR670,配備 Intel Xeon Platinum 和 NVIDIA H100,共有 8,288 個(gè)核心,在 TOP500 排行榜上排名第 293 位。
-
處理器
+關(guān)注
關(guān)注
68文章
19804瀏覽量
233525 -
超級(jí)計(jì)算機(jī)
+關(guān)注
關(guān)注
2文章
469瀏覽量
42325 -
AI
+關(guān)注
關(guān)注
87文章
34197瀏覽量
275346
原文標(biāo)題:AI巨頭籌劃價(jià)值1100多億美元的超級(jí)計(jì)算機(jī)項(xiàng)目
文章出處:【微信號(hào):ICViews,微信公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA助力全球最大量子研究超級(jí)計(jì)算機(jī)
Raspberry Pi 是單板計(jì)算機(jī)之王?

NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)

NVIDIA推出個(gè)人AI超級(jí)計(jì)算機(jī)Project DIGITS
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個(gè)人AI超級(jí)計(jì)算機(jī)設(shè)計(jì)NVIDIA GB10超級(jí)芯片
NVIDIA發(fā)布高性價(jià)比生成式AI超級(jí)計(jì)算機(jī)
云端超級(jí)計(jì)算機(jī)使用教程
量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

NVIDIA 以太網(wǎng)加速 xAI 構(gòu)建的全球最大 AI 超級(jí)計(jì)算機(jī)

評(píng)論