從短期來講,大模型革新每個行業、每個應用,編程范式發生了前所未有的變化,而就長期而言,大模型驅動的計算架構正在發生演化。未來究竟將如何演進?微軟亞洲研究院副院長楊懋博士特此撰文,深入計算機系統為我們帶來了更大規模、更分布式、更智能化的方向。
“大模型的不斷涌現和下一代人工智能需求的迅速增長,促使我們加速對傳統計算機系統的革新。同時,構建于大規模高性能計算機系統之上的現代人工智能技術也為未來計算機系統的研究帶來了無限的機遇。創新超級計算機系統、重塑云計算、重構分布式系統,將是實現計算機系統自我革新的三個重要方向。”?? ——楊懋,微軟亞洲研究院副院長
在計算機科學的諸多細分研究領域之中,計算機系統研究可能是最兼具“古典”與“摩登”特質的研究方向。說它古典,是因為計算機系統的雛形可以追溯到古代的算盤、算籌、數據表等計算工具,其發展遠遠早于軟硬件、云計算、人工智能等技術的研究;至于摩登的一面,大數據、云計算等現代技術又促進了計算機系統的不斷進化。傳統計算機系統研究領域,如分布式系統理論和實踐、編譯優化、異構計算等成果,已在當今的大模型時代大放異彩。同時,以大規模 GPU 集群為代表的高性能計算機系統也推動人工智能實現了質的飛躍。
然而,隨著人工智能技術更新迭代速度的加快,我們也愈發清晰地看到傳統計算機系統面臨著新的挑戰:當前的 GPU 集群在規模和效率上,已經難以滿足新一代人工智能模型的訓練和服務的需求,而現有的云計算和移動計算系統平臺,也需要從服務傳統的計算任務向服務智能應用轉變。
面對這一系列挑戰,我們意識到構建于大規模高性能計算機系統之上的現代人工智能技術,將為計算機系統的研究帶來無限的機遇。因此,計算機系統的革新也勢必要從這三個方向展開:
創新超大規模計算機系統以支持未來人工智能的發展;
重構云計算這一重要的 IT 基礎平臺;
設計前沿的分布式系統,以適應更廣泛的分布式智能需求。
01.?大規模和更高效的計算機系統是下一代人工智能發展的基石
強化學習領域的創始人之一 Rich Sutton 曾說過,“從 70 年的人工智能研究中可以總結出的最重要的經驗是,最大化利用計算能力是最有效,也是最有優勢的方法。從長遠來看,唯一重要的事情就是利用好算力。” 超級計算機系統作為當前最有效的計算力“源力”,是現代人工智能成功的重要基石。然而,在基于超級計算機系統構建大規模 GPU 集群的過程中,系統的可靠性、通信效率和總體性能優化成為制約大模型訓練性能上限的關鍵問題。因此,我們需要創造一個更高性能、更高效率的基礎架構和系統,以推動下一代人工智能的發展。
過去五年中,我們從體系結構、網絡通信、編譯優化和上層系統軟件等多個角度,開展了計算機系統的創新研究,為人工智能基礎架構的演化提供了有力支持。例如,我們推出了能夠跨多個加速器執行集體通信算法的微軟集體通信庫 MSCCL[1],以及有助于開發大規模深度神經網絡模型的高性能 MoE(Mixture of Experts,混合專家)庫 Tutel[2]。這些研究成果為包括大語言模型訓練及推理在內的各種人工智能任務提供了高效的支持。
超級計算機系統不能僅依靠傳統系統方法來實現革新,而是要利用人工智能實現創新和演進。這也是微軟亞洲研究院正在探索的研究方向,我們認為人工智能的新能力將為解決傳統計算機系統問題提供新視角,包括更智能和高效地優化復雜系統的性能,更快速和智能的問題診斷,以及更便捷的部署和管理。 人工智能與系統結合將為計算系統設計帶來新的范式。從芯片設計、體系結構創新、編譯優化到分布式系統設計,人工智能可以成為系統研究者的智能助手,甚至承擔大部分工作。
在人工智能的協助下,系統研究者可以將更多精力用于更大規模系統的整體設計,關鍵模塊和接口的抽象,以及系統整體的演進路線。比如,對于人工智能編譯系統的設計,我們推出了 Welder、Grinder 等編譯器[3],可以更專注于模型結構、編譯系統和底層硬件之間的關系和抽象,而更多具體的編譯優化搜索算法和實現可以由人工智能輔助完成。這些新的系統研究范式將成為構建更大規模和更高效的人工智能基礎架構的真正基石。
02.?以智能化為內核,重塑云計算系統
“操作系統管理著計算機的資源和進程,以及所有的硬件和軟件。計算機的操作系統讓用戶在不需要了解計算機語言的情況下與計算機進行交互?!边@是我們對計算機系統的最初理解。 但是,隨著以 GPU、HBM(高帶寬存儲器)、高速互聯網絡為代表的分離式(Disaggregation)服務器架構逐漸取代傳統以 CPU 為中心的服務器,人工智能智能體(AI Agent)和大模型成為云計算平臺的主流服務,深度學習算法逐漸替代傳統服務核心算法,云計算這個始于本世紀初的最重要的 IT 基礎系統也需要重塑自身。 傳統云計算領域的研究方向,如虛擬機(VM)、微服務(Microservices)、計算存儲分離、彈性計算等,在人工智能時代下需要被重新定義和發展。
虛擬化技術需要在分離式架構的背景下進行重新設計;
微服務及其相關云計算模塊需要為 AI Agent 和大語言模型構建高效且可靠的服務平臺;
數據隱私和安全需要成為云計算系統創新的核心要素。
所有這些變革創新都要服務于云計算系統的智能化(Cloud + AI)。
一方面,大規模異構計算系統在云端的普及為傳統大規模系統提供了新的計算平臺;
另一方面,深度學習特別是大模型的發展為傳統大規模系統的內在算法設計和實現提供了嶄新的思路。
以搜索系統為例,我們基于異構計算系統和深度學習方法對搜索系統進行了創新,從 Web Scale 的矢量搜索系統 SPANN[4]到最新的 Neural Index 索引系統 MEVI[5]的設計,這些創新不僅極大提升了搜索和廣告系統的性能,也為未來信息檢索系統提供了新的范式。類似的創新也發生在數據庫系統、科學計算系統等領域。 云計算系統不僅為人工智能的發展提供了保障,其自身和構建其上的大規模系統服務也將受益于人工智能技術,從而實現持續演進。未來的云計算平臺也將成為新一代人工智能基礎架構的關鍵組成部分。
03.?分布式系統將是分布式智能的關鍵基礎設施
“人類的智能不單存在于人類的頭腦中,還廣泛分布在整個物理世界、社會活動和符號體系中——這就是‘分布式智能’?!泵绹J知科學家 Roy Pea 在 1993 年發表的一篇論文“Distributed Cognition: Toward a New Foundation for the Study of Learning”中提出了分布式智能(Distributed cognition)的概念,為我們提供了一種新的視角來理解人工智能系統與社會以及環境之間的相互作用。
目前,大模型的技術鏈條,從訓練到推理都依賴于云計算中心。但我們相信,智能廣泛存在于分布式環境中,未來的智能計算也必然存在于任意的分布式環境中。 人類和物理世界的交互、基于符號系統的交流,都是智力活動的體現。在未來,這些智力活動應該能被大模型更好地感知和學習,人們也可以在任意終端更實時地獲取人工智能模型的能力。這種泛在的相互感知和不斷演進的能力,將是未來分布式系統研究的重點之一。 那么,如何支持智能技術在更分布式的場景下發展?我們需要考慮在由云端、邊緣端和設備組成的廣泛計算平臺中,如何更好地進行人工智能計算。除了傳統的模型稀疏化、壓縮等優化模型推理性能的技術外,更為關鍵的是要克服大模型等算法在邊緣端運行時遇到的挑戰,如實時性和可靠性等基礎問題。為此,我們推出了 PIT[6]、MoFQ[7]等多種移動端模型量化、稀疏化以及運行時優化的技術。
另外,對于邊緣計算平臺和設備,硬件和推理算法的創新也至關重要,這將從根本上革新端側的推理方式,比如利用基于查找表(Lookup Table)等全新的計算范式來提升端側推理效率, 包括 LUT-NN[8]等技術。 我們還與多個不同的機器學習團隊緊密合作,使學習算法可以更好地從任意信號(Signals)中捕捉智能。除了傳統的多模態模型,我們也在尋找更簡潔和內在一致的模型結構和學習算法,可以從任意信號中進行學習。我們也在探索更優的模型結構和算法,這些模型應當更稀疏、更高效,且具有良好的可擴展性,能夠有效地支持自學習和實時更新。 未來,智能將融入廣泛的分布式環境中,而創新的分布式系統將是分布式智能的關鍵基礎設施,也是人類社會獲得更實時、更可靠的人工智能交互能力的前提。
04.?未來的計算機系統將自我進化
未來的計算機系統研究將是一個持續自我革新的過程。這不僅意味著計算機系統需要不斷進化來滿足未來人工智能發展的需求,也意味著計算機系統本身將更加智能化,并具備自我演化的能力。
過去幾年的變革創新讓我們窺見了些許未來的樣貌。然而,從基礎架構、云計算平臺到分布式智能化,人工智能時代的計算機系統研究領域,還有很多新的可能性等待我們去探索。當然,我堅信那些更加智能、更強大的助手和工具,一定會在未來的研究道路上給我們帶來尚未被發現,但又足以令人興奮的驚喜。
作者簡介
楊懋博士現任微軟亞洲研究院副院長,領導微軟亞洲研究院在計算機系統和網絡領域的研究工作。于 2006 年加入微軟亞洲研究院,主要從事分布式系統、搜索引擎系統和深度學習系統的研究、設計與實現。同時領導團隊在計算機系統、計算機安全、計算機網絡、異構計算、邊緣計算和系統算法等方向進行關鍵技術研究。團隊及個人在 OSDI、SOSP、NSDI、SIGCOMM、ATC 等計算機系統和網絡的頂級會議上持續發表多篇論文。團隊在研究的同時還注重與實際計算機和網絡系統的演進結合,與 Azure 云計算、Bing 搜索引擎系統、Windows 操作系統、SQL Server 數據庫系統以及多個開源社區密切合作。楊博士同時還是中國科學技術大學博士生導師,擁有北京大學計算機體系結構專業博士學位以及哈爾濱工業大學碩士和學士學位。
審核編輯:黃飛
?
評論