作者簡(jiǎn)介:何金池是 IBM 科技事業(yè)部負(fù)責(zé)客戶工程的架構(gòu)師,著有《Kubeflow:云計(jì)算和機(jī)器學(xué)習(xí)的橋梁》和《大數(shù)據(jù)處理之道》等書(shū),是 Kubeflow、Tekton 多個(gè)開(kāi)源社區(qū)的 Maintainer,親自參與了 IBM Spectrum LSF、IBM Cloud Pak for Data 等產(chǎn)品的研發(fā),是分布式計(jì)算、大數(shù)據(jù)處理和云原生等相關(guān)技術(shù)和產(chǎn)品的專(zhuān)家。
引言
當(dāng)前,我們正處在一個(gè)“數(shù)據(jù)智能”的時(shí)代,數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),數(shù)字化、智能化轉(zhuǎn)型已是企業(yè)創(chuàng)新和高質(zhì)量發(fā)展的基石。在數(shù)據(jù)為王的時(shí)代,如何讓數(shù)據(jù)產(chǎn)生價(jià)值,讓數(shù)據(jù)說(shuō)話,讓數(shù)據(jù)輔助決策呢?數(shù)據(jù)變寶任重而道遠(yuǎn),只有借助于高性能計(jì)算 (HPC) 和人工智能 (AI),數(shù)據(jù)才能淋漓盡致的綻放其價(jià)值。而在分布式的 HPC 集群的工作負(fù)載運(yùn)行中,調(diào)度是 “大腦中樞”,無(wú)調(diào)度不成超算。
IBM Spectrum LSF (Load Sharing Facility,下文稱(chēng) LSF) 給分布式高性能計(jì)算系統(tǒng)注入靈魂,強(qiáng)有力地把分布在不同地方的算力組織起來(lái),猶如萬(wàn)劍歸一,凝心聚力,以實(shí)時(shí)的算力監(jiān)控和優(yōu)越的調(diào)度性能,在最短的時(shí)間內(nèi)完成工作負(fù)載的調(diào)度和執(zhí)行。
LSF 橫空出世并一往直前
站在今天看過(guò)去,分布式高性能計(jì)算一直是 IT 行業(yè)的熱門(mén)話題。就是算力強(qiáng)悍的今天,大型機(jī) (比如 IBM Z 系列) 已經(jīng)承載了一些核心的業(yè)務(wù),但一些其他的應(yīng)用和作業(yè),無(wú)福享受到強(qiáng)悍的大型機(jī)的伺候,更何況把目光往前推 20多年,單個(gè)主機(jī)很難滿足應(yīng)用作業(yè)的需求,那怎么辦呢?最直接的方式就是把一群機(jī)器組織起來(lái),并行干活。如果有一把絕世寶劍,來(lái)統(tǒng)一號(hào)令集群協(xié)同工作,只要調(diào)度得當(dāng),完全有可能實(shí)現(xiàn)“機(jī)心齊,泰山移”。
在這種背景下,LSF 于 1992年橫空出世。到今天,LSF 已經(jīng)走過(guò)了 29個(gè)年頭。在這 29年的發(fā)展中,新的技術(shù)層出不窮,用戶的需求也在不斷變化,經(jīng)過(guò) LSF 研發(fā)團(tuán)隊(duì)的精益求精和不懈努力,LSF 已經(jīng)發(fā)展成為 HPC 分布式集群的“瑞士軍刀”,擁有高性能的大規(guī)模分布式集群管理和調(diào)度能力。近日在中國(guó),LSF 被 IBM 中國(guó)團(tuán)隊(duì)創(chuàng)業(yè)成長(zhǎng)計(jì)劃“12星座”冠以“白羊座”黑科技產(chǎn)品,算是名至所歸。29歲,LSF 正當(dāng)壯年!
那么 LSF 到底是什么呢?LSF 是一個(gè)強(qiáng)大的分布式工作負(fù)載管理平臺(tái),基于智能的、策略驅(qū)動(dòng)的調(diào)度特性,充分利用計(jì)算基礎(chǔ)設(shè)施資源,實(shí)現(xiàn)最佳的應(yīng)用程序性能。一言以蔽之,LSF 在正確的時(shí)間內(nèi),將正確的資源分配給正確的用戶作業(yè)。LSF 旨在降低企業(yè)運(yùn)營(yíng)成本的同時(shí),提高生產(chǎn)效率。
經(jīng)過(guò)二十多年的發(fā)展,相對(duì)于最初的 LSF 1.0 版本,最新的 LSF 10.1,不管是功能上,還是性能上,都得到了質(zhì)的飛躍。LSF 從最初簡(jiǎn)單的調(diào)度器,發(fā)展到今天豐富多彩的調(diào)度“航母”,不僅后向兼容,而且不斷創(chuàng)新,支持層出不群的新技術(shù)和新平臺(tái),比如支持 GPU 和 Kubernetes 等,也支持機(jī)器學(xué)習(xí)的平臺(tái)和作業(yè),AI 賦能,發(fā)展出了很多周邊產(chǎn)品,一往無(wú)前的創(chuàng)新和完善的功能,讓 29歲的 LSF 成為了妥妥的“黑科技”。
在分布式管理和調(diào)度方面,LSF 的功能可謂應(yīng)有盡有,僅僅調(diào)度策略,就有數(shù)十種,比如先來(lái)先服務(wù) (FCFS)、搶占 (Preemption)、資源需求 (Resource Requirement)、公開(kāi)共享 (Fair share Scheduling)、服務(wù)水平的資源保障 (Guarantee SLA)、資源預(yù)訂 (Resource Reservations)、回填調(diào)度 (Backfill Scheduling)、親和調(diào)度 (Affinity Scheduling) 等。
LSF 不光支持 CPU 等常見(jiàn)算力,而且也支持 GPU 調(diào)度。同時(shí)支持多集群調(diào)度,塊調(diào)度、作業(yè)動(dòng)態(tài)調(diào)度、許可證(License)調(diào)度,基于事件的調(diào)度、計(jì)算單元和作業(yè)包裝、作業(yè)開(kāi)始時(shí)間預(yù)測(cè)等功能。
LSF 也支持容器化的應(yīng)用的調(diào)度,LSF 可作為 Kubernetes 集群的熱插拔調(diào)度器,根據(jù)策略將 Pod 綁定到特定節(jié)點(diǎn),由 Kubelet 在目標(biāo)節(jié)點(diǎn)上執(zhí)行和管理 Pod 生命周期,HPC 作業(yè)可以在不影響 Kubernetes Pods 的情況下提交和執(zhí)行。
同時(shí),LSF 支持混合云策略,LSF 有一個(gè)非常受歡迎的功能:Resource Connector。如果在作業(yè)激增的情況下,等待作業(yè)較多,本地資源不足的情況下,Resource Connector 可以迅速的向公有云或者私有云申請(qǐng)資源,然后基于智能化的策略,把作業(yè)調(diào)度到云端資源上執(zhí)行。如果業(yè)務(wù)量下降了,根據(jù)預(yù)設(shè)的門(mén)限,即刻釋放云端資源。這種可伸縮性,有效的提高計(jì)算效率的同時(shí),為客戶節(jié)省了費(fèi)用,真是魚(yú)和熊掌二者兼得也!
在 HPC 集群中,性能非常重要,在 LSF 10 版本中,實(shí)現(xiàn)了無(wú)與倫比的大規(guī)模高性能,并且包含了很多創(chuàng)新性功能,提高了易用性和可訪問(wèn)性。LSF 10 支持?jǐn)?shù)以千計(jì)的并發(fā)用戶數(shù),同時(shí)管理數(shù)以萬(wàn)計(jì)的節(jié)點(diǎn)資源,同時(shí)調(diào)度數(shù)以百萬(wàn)計(jì)的作業(yè)。通過(guò) IO 模式優(yōu)化、將數(shù)據(jù)移到更靠近作業(yè)的地方、處理器間通信的優(yōu)化等方法,來(lái)提高作業(yè)的吞吐量性能。在 LSF 10 的 Benchmark 測(cè)試中,LSF 可以在每小時(shí)調(diào)度分發(fā) 9百萬(wàn)的作業(yè)(超短作業(yè))。在另外一組測(cè)試環(huán)境中,在 100,000個(gè) Slots 的 LSF 集群,縱向?qū)Ρ攘?LSF 的性能提升,從圖中我們可以看是 LSF 10 的性能得到了大幅提升。
LSF 的小伙伴們
俗話說(shuō),一個(gè)好漢三個(gè)幫。LSF 的核心的功能是根據(jù)集群的資源情況對(duì)作業(yè)進(jìn)行調(diào)度和分發(fā),到今天,LSF 已經(jīng)發(fā)展出了一個(gè)大的家族,LSF 更像是一個(gè)家長(zhǎng),以“帶頭大哥”的身份帶領(lǐng)其家族的小伙伴們,為客戶降低運(yùn)營(yíng)成本,提高生產(chǎn)率。具體看,LSF 家族的核心價(jià)值有:
通過(guò)有效的調(diào)度和共享策略提高資產(chǎn)利用率
通過(guò)易用性、易訪問(wèn)性和簡(jiǎn)化來(lái)提高用戶的工作效率
通過(guò)洞察如何使用 HPC 環(huán)境來(lái)提高操作效率
下面有請(qǐng) LSF 家族中幾位主要的小伙伴們亮相:
01
LSF AC (Application Center)
LSF AC 是 LSF 的 Web Portal。作為是 LSF 家族中“大師兄”,為集群用戶和管理員提供了靈活、易用的界面,使用戶能夠直觀的和 LSF 集群進(jìn)行交互。有了 LSF AC,媽媽再也不用擔(dān)心程序員小明記不住復(fù)雜的 LSF 后臺(tái)命令了!用戶可以通過(guò) Web 瀏覽器輕松愉快的完成作業(yè)的基本操作,如停止、暫停、恢復(fù)或重新排隊(duì)作業(yè),也可以在 Web 界面監(jiān)控作業(yè)的運(yùn)行情況。同時(shí),LSF AC 有很多應(yīng)用程序的模板和腳本指南,這些模板和指南,很好的簡(jiǎn)化了作業(yè)提交,很大程度上降低用戶的操作錯(cuò)誤概率。
LSF AC 不光有電腦客戶端,也支持手機(jī)客戶端,用戶隨時(shí)隨地的掌握作業(yè)的運(yùn)行狀態(tài)和資源情況。
02
LSF PM (Process Manager)
在一些 LSF 的應(yīng)用場(chǎng)景中,很多作業(yè)之間有依賴(lài)關(guān)系,特別是近幾年來(lái)的容器化,微服務(wù)化,并行化作業(yè)愈發(fā)盛行,面對(duì)錯(cuò)綜復(fù)雜的作業(yè)依賴(lài)關(guān)系,如果沒(méi)有一套流水線的管理工具,那對(duì)于這些用戶來(lái)說(shuō),簡(jiǎn)直就是災(zāi)難。LSF PM 就是肩負(fù)著這個(gè)使命而誕生的,使用這個(gè)流水線工具,LSF 用戶可以在提交作業(yè)前,圖形化的勾勒出作業(yè)的先后順序和驅(qū)動(dòng)事件,然后再提交執(zhí)行。使用直觀的圖形界面記錄和查看工作流步驟和執(zhí)行情況,允許用戶自動(dòng)執(zhí)行容易出現(xiàn)人為錯(cuò)誤的、或者冗長(zhǎng)重復(fù)任務(wù)。
同時(shí),用戶可以通過(guò) LSF PM 設(shè)置一些驅(qū)動(dòng)事件,比如文件事件(比如文件產(chǎn)生或者消失的時(shí)候,觸發(fā)某些作業(yè)),時(shí)間事件(可以在特定的時(shí)間或者周期性的觸發(fā)作業(yè)的運(yùn)行)等。LSF PM 擁有 CS 模式的客戶端,同時(shí)也已經(jīng)集成到了 LSF AC 的 Web 界面中了。
03
LSF RTM (Report, Track, Monitor)
LSF RTM 是 LSF 集群管理員的福音,LSF 集群管理員可以通過(guò) LSF RTM 的 Web 儀表盤(pán)來(lái)全面的、實(shí)時(shí)的監(jiān)視、報(bào)告和管理集群和工作負(fù)載,極大程度上提高了集群資源利用率和用戶生產(chǎn)率,以及控制或降低了用戶的成本。同時(shí)LSF RTM 支持監(jiān)控應(yīng)用程序許可證服務(wù)器和集群中的用戶和用戶組。通過(guò) LSF RTM 直觀的 Dashboard,可以輕松有效的監(jiān)控多個(gè) LSF 集群,完成管理員日常的集群維護(hù)工作。
04
LSF Explorer
LSF Explorer 是針對(duì) LSF 環(huán)境的輕量級(jí)報(bào)告解決方案,支持各種業(yè)務(wù)和用戶快速創(chuàng)建和查看報(bào)告和 Dashboard。如果沒(méi)有 LSF Explorer,想要滿足不同用戶的需求,這些報(bào)告需要從多個(gè)產(chǎn)品中的不同報(bào)告中獲得,而且這些數(shù)據(jù)可能需要通過(guò)電子表格的方式,手動(dòng)創(chuàng)建報(bào)告,耗時(shí)且費(fèi)力。LSF Explorer 使用 Elasticsearch 數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)、索引和查詢數(shù)據(jù),LSF 的用戶、IT 管理人員或者項(xiàng)目負(fù)責(zé)人,都可以輕松的、定制化的獲取,定期查看計(jì)算環(huán)境的執(zhí)行報(bào)告,和所在項(xiàng)目或業(yè)務(wù)線正在消耗什么樣的資源。
05
LSF License Scheduler
商業(yè)化的應(yīng)用程序許可證 (License) 往往是一種昂貴的資源,用戶可以使用 LSF License Scheduler,根據(jù)已建立的分發(fā)策略分配 License,從而管理和優(yōu)化計(jì)算節(jié)點(diǎn)和項(xiàng)目之間的應(yīng)用程序 License 使用。License 可以在集群之間共享,也可以在集群內(nèi)的項(xiàng)目之間共享。LSF License Scheduler 可以簡(jiǎn)化 License 共享,幫助提高生產(chǎn)力和增加對(duì) License 資源的整體訪問(wèn),支持 FlexNet 和 Reprise 許可證管理器 (RLM) 等。
06
LSF Data Manager
作業(yè)的執(zhí)行,往往需要一些數(shù)據(jù)作為輸入,或者會(huì)輸入大量的數(shù)據(jù),如果沒(méi)有合理的數(shù)據(jù)管理,勢(shì)必對(duì)作業(yè)的執(zhí)行速度造成影響。使用 LSF Data Manager,用戶可以有效地管理在 HPC 環(huán)境中的大量數(shù)據(jù),借助已經(jīng)具備的底層文件傳輸基礎(chǔ)設(shè)施(如 IBM Aspera),自動(dòng)化 LSF 集群內(nèi)和集群間的數(shù)據(jù)傳輸,以及本地與云之間的數(shù)據(jù)傳輸。LSF Data Manager 還提供了一個(gè)智能托管緩存,允許復(fù)用數(shù)據(jù),并避免重復(fù)的傳輸,從而消除浪費(fèi)的磁盤(pán)空間和數(shù)據(jù)傳輸?shù)牡却龝r(shí)間。簡(jiǎn)單的說(shuō),LSF Data Manager 根據(jù)作業(yè)調(diào)度情況,決定移動(dòng)哪些數(shù)據(jù),和什么時(shí)候移動(dòng),然后可以借助文件傳輸技術(shù)(如 IBM Aspera)實(shí)現(xiàn)超高速傳輸。
LSF 應(yīng)用場(chǎng)景和用戶分析
LSF 主要的應(yīng)用場(chǎng)景為分布式計(jì)算領(lǐng)域和一些計(jì)算密集型的場(chǎng)景。LSF 已經(jīng)成功的應(yīng)用到了眾多行業(yè),包括電子自動(dòng)化,航空航天等制造業(yè)、教育培訓(xùn)、能源、金融、生命科學(xué),大型超算中心、氣象分析、環(huán)境監(jiān)測(cè)、仿真系統(tǒng)、數(shù)據(jù)挖掘、人工智能、動(dòng)漫渲染等。簡(jiǎn)而言之,如果后臺(tái)需要大量的計(jì)算,LSF 定能助一臂之力。
目前,全球前 12大汽車(chē)領(lǐng)域的公司,有 10家在使用 LSF。前 25家電子自動(dòng)化企業(yè),有 23家在使用 LSF 計(jì)算機(jī)輔助作業(yè)調(diào)度。全球前 3大生命科學(xué)中心均在使用 LSF 做后臺(tái)的集群調(diào)度。一些成功的超算中心,也在使用 LSF 做調(diào)度和監(jiān)控。很多高等學(xué)府和研究院,使用 LSF 做超前的研究工作。我們每天看的精準(zhǔn)的天氣預(yù)報(bào),也有 LSF 默默無(wú)聞的貢獻(xiàn)。LSF 的成功案例數(shù)不勝數(shù),可以說(shuō),雖然我們摸不到,看不到,但 LSF 已然和我們的生活息息相關(guān)。
結(jié)語(yǔ)
因篇幅有限,不能對(duì)浩瀚的 LSF 做詳盡闡述,LSF 依舊在持續(xù)的發(fā)展中。二十多年來(lái),LSF 工作負(fù)載/資源管理解決方案贏得了多個(gè)行業(yè)客戶的青睞,借助于 LSF,客戶的作業(yè)運(yùn)行效率得到了極大的提高,降低了成本。今日的成功只是明日的起跑線,風(fēng)華正茂的 LSF 和它的小伙伴們,在以后的日子里,不改初心,會(huì)不斷完善自己,持續(xù)為客戶創(chuàng)造更大的價(jià)值。
END
往期回顧
→ 寶藏 IBM 的黑科技之“十二星座”干貨粗略說(shuō)說(shuō)
→ IBM 專(zhuān)家觀點(diǎn): Data Fabric 將會(huì)是下一個(gè) IT 的風(fēng)口嗎?
點(diǎn)擊“閱讀原文”,了解更多
原文標(biāo)題:IBM Spectrum LSF:分布式系統(tǒng)的“瑞士軍刀”
文章出處:【微信公眾號(hào):IBM中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
IBM
+關(guān)注
關(guān)注
3文章
1813瀏覽量
75552 -
cpu
+關(guān)注
關(guān)注
68文章
11054瀏覽量
216262 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8953瀏覽量
139675
原文標(biāo)題:IBM Spectrum LSF:分布式系統(tǒng)的“瑞士軍刀”
文章出處:【微信號(hào):IBMGCG,微信公眾號(hào):IBM中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
IBM Spectrum LSF如何助力半導(dǎo)體企業(yè)應(yīng)對(duì)AI時(shí)代的高性能芯片需求
多通道電源管理芯片在分布式能源系統(tǒng)中的優(yōu)化策略
如何在基于Arm Neoverse平臺(tái)的CPU上構(gòu)建分布式Kubernetes集群

分布式云化數(shù)據(jù)庫(kù)有哪些類(lèi)型
大型工商業(yè)分布式光伏如何配置防逆流方案?

分布式光伏運(yùn)維云平臺(tái)助力光伏電站運(yùn)營(yíng)

增強(qiáng)分布式光伏電站管理,遠(yuǎn)程管理 提高管理便捷性
分布式通信的原理和實(shí)現(xiàn)高效分布式通信背后的技術(shù)NVLink的演進(jìn)

分布式光纖測(cè)溫是什么?應(yīng)用領(lǐng)域是?

分布式光纖聲波傳感技術(shù)的工作原理

一文講清什么是分布式云化數(shù)據(jù)庫(kù)!
分布式工業(yè)物聯(lián)網(wǎng)平臺(tái):引領(lǐng)智能制造的新篇章
遠(yuǎn)程訪問(wèn)物聯(lián)網(wǎng)平臺(tái)如何實(shí)現(xiàn)分布式設(shè)備高效管理
基于分布式對(duì)象存儲(chǔ)WDS的信托非結(jié)構(gòu)化數(shù)據(jù)整合平臺(tái)

評(píng)論