美國南方衛(wèi)理公會大學使用 NVIDIA DGX SuperPOD 推動德克薩斯州北部地區(qū)進入 AI 時代;密西西比州立大學和德克薩斯農(nóng)工大學準備使用 NVIDIA Quantum-2 網(wǎng)絡;英國的一所大學則升級了其 InfiniBand 網(wǎng)絡。
?
正如達拉斯/沃斯堡機場已成為全美旅行樞紐一樣,南方衛(wèi)理公會大學(SMU)將助力德克薩斯州北部地區(qū)在 AI 行業(yè)發(fā)展中處于領先地位。
南方衛(wèi)理公會大學正在安裝一臺 NVIDIA DGX SuperPOD 超級計算機。該大學希望這臺超級計算機為這個擁有12000多名學生和2400名教職員工的龐大社區(qū)推動機器學習項目的發(fā)展。
除了該大學之外,美國中南部還有兩所大學也宣布計劃使用 NVIDIA 技術以推動研究高速發(fā)展。
德克薩斯農(nóng)工大學和密西西比州立大學均計劃使用 NVIDIA 的 400 Gbit/s InfiniBand 網(wǎng)絡平臺,NVIDIA Quantum-2 將作為其最新高性能計算機的主干網(wǎng)。此外,英國的一臺超級計算機剛剛升級了其 InfiniBand 網(wǎng)絡。
德克薩斯州喜獲 SuperPOD
提到今年早期在佛羅里達大學安裝的另一個系統(tǒng)時,南方衛(wèi)理公會大學首席信息官 Michael Hites 表示:“我們是美國第二所獲得 DGX SuperPOD 系統(tǒng)的大學,它將助力本社區(qū)在使用 AI 技術推動學位課程,以及校企合作方面,均處于領先地位?!?/p>
9月,一篇報導稱,達拉斯地區(qū)因缺乏主要的 AI 研究而 “步履蹣跚”。巧合的是,報導登上當?shù)貓蠹堉畷r,也正是南方衛(wèi)理公會大學敲定其 DGX SuperPOD 計劃之日。
南方衛(wèi)理公會大學在 3 月的一份計劃預覽報告中表示,AI 是 “數(shù)字化轉型的核心……沒有任何社會部門能夠不受該技術的影響。AI 對 K-12 教育行業(yè)和勞動力發(fā)展具有巨大的改善潛力,這將有助于該地區(qū)經(jīng)濟的持續(xù)增長?!?/p>
一項 15 億美元的籌款活動——SMU Ignite——于9月正式啟動。SMU Ignite 將推動 AI 倡議,幫助南方衛(wèi)理公會大學邁入全國頂級研究型大學的行列。該大學正在聘請一位首席創(chuàng)新官來協(xié)助指導此項工作。
打造一個計算煉金爐
南方衛(wèi)理公會大學研究者 IT 支持團隊主管 Jason Warner 表示,這項工作的核心是人才。因此,他為南方衛(wèi)理公會大學福特研究與創(chuàng)新中心的一個新中心聘請了一批具有重大影響力的數(shù)據(jù)科學專家。Warner 將這座新中心稱為南方衛(wèi)理公會大學的 “計算煉金爐”。
這支團隊由 Eric Godat 領導,他在南方衛(wèi)理公會大學使用大型強子對撞機的數(shù)據(jù)為核結構建模,并因此獲得了粒子物理學博士學位。
而今,他正協(xié)助南方衛(wèi)理公會大學的學生了解 DGX SuperPOD 所帶來的新機會。第一步,他邀請兩名南方衛(wèi)理公會大學的學生使用 NVIDIA Jetson 模塊建造一個 DGX SuperPOD 的微型模型。
Godat 表示:“我們想讓大家感受一下未來的工作會是什么樣子的,尤其是那些沒有做過 AI 方面工作的非技術領域人員。”
南方衛(wèi)理公會大學本科生 Connor Ozenne 協(xié)助建立了一個微型 DGX SuperPOD,南方衛(wèi)理公會大學年度報告中對其進行了介紹。這臺微型系統(tǒng)由 16 個 Jetson 模塊組成,學生們將把它看作一個 TOP500 系統(tǒng)來運行 benchmark 測試
這臺全尺寸超級計算機由建立在 NVIDIA Quantum InfiniBand 網(wǎng)絡上的 20 個 NVIDIA DGX A100 系統(tǒng)組成。憑借其積木式的模塊化結構,這臺超級計算機最早可以在1月啟動和運行。它將提供高達 100PFlops 的計算力,足以使其在全球最快超級計算機榜單 TOP500 上位居前列。
德克薩斯農(nóng)工大學為其 ACES 使用 NVIDIA Quantum-2 InfiniBand 技術
位于南面約 200 英里的德克薩斯農(nóng)工大學高性能計算中心,將成為首批接入 NVIDIA Quantum-2 InfiniBand 平臺的機構之一。其 ACES 超級計算機由戴爾科技建造,將使用 400G InfiniBand 網(wǎng)絡為研究者連接來自四家廠商的五個加速器。
NVIDIA Quantum-2 確保 “在 ACES 上單項工作即可以擴展到所有計算核和加速器。除了在吞吐量上比 NVIDIA Quantum-1 InfiniBand 的 200G 翻倍之外,它還具有更低的總擁有成本、更強大的網(wǎng)絡計算功能和更高的擴展性”,ACES 首席研究員兼項目總監(jiān) Honggao Liu 表示。
德克薩斯農(nóng)工大學已經(jīng)為研究者提供了四套加速計算系統(tǒng),這四套系統(tǒng)包含 600 多個NVIDIA A100 Tensor Core 和上一代 GPU,其中兩個系統(tǒng)使用了較早版本的 NVIDIA InfiniBand 技術。
密西西比州立大學乘上 400G 網(wǎng)速列車
密西西比州立大學也將使用 NVIDIA Quantum-2 InfiniBand 平臺。它是構建 Orion 新系統(tǒng)的首選網(wǎng)絡,Orion 是密西西比州立大學管理的四個集群中最大的一個集群,這四個集群全部使用較早版本的 InfiniBand 網(wǎng)絡所構建。
Orion 和新系統(tǒng)均由美國國家海洋和大氣管理局 (NOAA) 所資助,由戴爾科技建造。 Orion 和新系統(tǒng)將承擔 NOAA 的工作任務,以及密西西比州立大學的各項研究課題。
Orion 在 2019 年 6 月首次登上 TOP500 榜單,并被列為美國第四大學術超級計算機。
密西西比州立大學高性能計算總監(jiān) Trey Breckenridge 表示:“我們在密西西比州立大學的四代超級計算機中都使用了 InfiniBand,所以我們知道它既強大又成熟,可以可靠地運行我們需要的大型工作?!?/p>
他補充道:“我們正在添加一套使用 NVIDIA Quantum-2 的新系統(tǒng),以保持在高性能計算領域的領先優(yōu)勢。”
Quantum 在英國掀起風潮
在大洋彼岸的英國,萊斯特大學的數(shù)據(jù)密集型超級計算機——DIaL系統(tǒng)——已經(jīng)升級到200G 版本的 NVIDIA Quantum InfiniBand。
萊斯特大學理論天體物理學教授兼高性能計算中心總監(jiān) Mark Wilkinson 表示:“DIaL專為解決復雜的數(shù)據(jù)密集型問題而設計,我們需要解決這些問題,才能推進對周圍宇宙的理解?!?/p>
“這些專業(yè)應用對帶寬和延遲的要求都是前所未有的,只有 InfiniBand 能夠滿足要求,使研究工作有效開展?!?/p>
DIaL 是英國 DiRAC 設施中使用 InfiniBand 的四臺超級計算機之一,另外還包括愛丁堡大學的 Tursa 系統(tǒng)。
InfiniBand 在技術評估上表現(xiàn)出色
在一次技術評估中,研究人員發(fā)現(xiàn)與使用另一種互連方式的純CPU系統(tǒng) Tesseract 相比,在由 Quantum 網(wǎng)絡和 NVIDIA GPU 加速器構建的 Tursa 系統(tǒng)上運行應用性能可達5倍提升。
基準應用測試顯示,Tursa 系統(tǒng)上 16 個節(jié)點的性能是 Tesseract 系統(tǒng)上 512 個節(jié)點性能的兩倍。Tursa 系統(tǒng)的每個節(jié)點提供 10 TFlops 計算性能,使用90%的網(wǎng)絡帶寬,每千瓦性能相比 Tesseract 有顯著的提高。
這也說明了為什么世界上大多數(shù) TOP500 系統(tǒng)都在使用 NVIDIA 的技術。
評論