嵌入式工程師需要的10技能
數據中心的熱設計何時變得如此重要?
在過去三四年的時間里,為了應對來自銀行、醫院、政府部門、電信運營商和各類托管機構不斷增長的信息存儲和傳輸需求,數據中心的應用在全球范圍內如雨后春筍般蓬勃發展。數據中心的功率載荷(以及相應的散熱)足跡也與日俱增,截至2020年,來自數據中心的溫室氣體排放量預期將超過航空業排放量 。數據中心現已消耗全美約 2% 的總電力,并且還在以約 12% 的年復合增長率增長。
在數據中心的運營成本中,散熱占據了重要部分。因此,人們越來越關注如何最大限度降低數據中心的能源使用,從而降低運營成本。數據中心設計一貫的目標是,確保維持盡可能低,換言之,接近于一(即 1.0)的能源使用效率 (PUE)。
數據中心的熱設計何時變得至關重要?
服務器機架的功率密度與日俱增,從幾年前的每機架約 1-3 KW 增加至目前的每機架 24-30 KW。熱問題是多種故障的源頭,因此,必須確保服務器和交換機保持冷卻狀態。特別是,電子產品的故障率隨溫度的上升急劇升高,與此同時,較大的溫度變化給焊點帶來的高熱應力也成為了另一個故障源。隨著數據中心提供的可靠率日益受到重視,它已成為人們關注的焦點問題之一。反過來,它也促使人們更加重視數據中心的監控和報告,以確保數據設備不會發生故障。
監控和報告對運營中的數據中心而言非常重要。對于具有當前服務器功率水平的新建數據中心,以及對原有空間進行改造或將現有機架中的舊服務器置換為新服務器等情形而言,由于功率密度遠高于從前,因此出現熱故障的可能性更高。如果需要達到數據中心的設計容量,經過 CFD 仿真驗證的熱設計將是不可或缺的。
數據中心設計
1: 始于數據大廳設計之時
考慮數據中心熱設計的最佳時機是在建置前階段(旨在實現綠色環保建筑)。這意味著從一開始就可以考慮以下事項:
■ 整體 HVAC 系統,例如采用高架地板設計、管線散熱方法、共用或單體機架通氣管、專用機架散熱裝置、吊頂裝置等
■ 確定 HVAC 系統后,考慮鋪線和管道布置
■ 對機房空調 (CRAC) 和其他散熱裝置、單獨的服務器和/或機架、冗余設備等實施熱交換方法
請注意,改造和故障排除也可以并且應該使用 CFD 模型進行處理,因為其中一些改動的成本可能非常高,譬如從高架地板改為管線散熱等。使用 CFD 可確保針對傳統數據中心做出明智的選擇,并在實際實施更改之前通過仿真方法加以確認。
遵循以上建議,Mentor Graphics Corporation 在 Wilsonville 和 Shannon 設立的地區自有數據中心的 PUE 現已達到約 1.15 到 1.2。針對全球范圍內的 PUE 值分布,目前還沒有可用的真實數據,但許多數據中心的PUE 高達 3.0 甚至更高,而事實上,1.6 的 PUE 是完全可以實現的。勞倫斯伯克利國家實驗室完成的測量表明,被測的 22 家數據中心的 PUE 值介于 1.3 到 3.0 范圍以內。
2: 構建簡單的數據大廳模型
包含各種關鍵特性,例如整體結構、高架地板(如果有)、空氣調節/散熱裝置、機架/服務器、大型架空地板堵塞(如果有)和通風地板(如果有)等。以下是使用 FloTHERM 提供的一個小型數據中心模型。該模型可用于教學用途,或作為構建另一個數據中心模型的起點。
圖 1:FloTHERM V10 附帶的傳統高架地板數據中心模型
3: 從 CAD 導入數據
可以從 CAD 模型或 DXF 文件導入數據中心設計,或者通過使用 FloTHERM FloXML 架構核查來自 DCIM 或類似軟件的合適數據來導入數據中心設計。對于后一種情形,我們稍后將會進行詳細討論。如果需要,可以將項目替換為合適的 FloTHERM SmartPart 或庫表示。
FloTHERM 提供用于 CRAC 裝置以及多孔板、散熱機、機架和服務器的各種 SmartPart。SmartPart 表示中內置的智能可提供更高的準確度。例如,Rack SmartPart 可正確地考慮機架及機架內服務器的空氣分層。通過定義合適的“網格約束”等方法可以添加合適的網格,以確保在分析過程中始終使用足夠的網格來表示網格。FloTHERM 中的“模式”功能在定義重復的機架和/或通風地板行方面非常有用。
圖 2:FloTHERM 中的 Cooler SmartPart 構建對話框
在模型的這一初始版本中,可使用每個機架相對簡單的表示來輕松確定數據中心的相對性能。特別是,機架將作為單個構造塊使用 FloTHERM Rack SmartPart 進行建模,同時還具備適當的功耗,以及通過機架的流量或機架入口和出口之間的氣流溫升。類似地,可使用 Perforated Plate SmartPart,通過簡單的壓降與速度表示來對通風地板進行建模。
5: 考慮備選設計
此階段的目標是探索盡可能多的設計選擇,以便從中選出最合適的數據大廳設計。這取決于多個因素,包括:
■ 數據中心內的機架功率密度及其分布。盡管機架往往是根據功能或功率密度聚集到一起的,但空間內的散熱要求可能差異很大,并且可能需要補充散熱。
■ 可供設計使用的空間框架。例如,在機架上使用通氣管可能需要當前用于鋪線、照明的高規格基板面。
最簡單的選擇是使用開放式機架通道,并且使用單獨的通風地板或管線式散熱機來為機架提供冷空氣。此布置通常在“熱空氣”和/或“冷空氣”設計中使用,其中的機架行出口或入口彼此相對。但是,從環境中排放的熱空氣很容易繞過散熱基礎設施并被吸回到機架中。于是就會降低散熱效果,導致需要遠超過所需數量的散熱裝置才能使 IT 設備保持足夠低的溫度,PUE 也會因此相對較高。
可采用多種策略來改進數據大廳的熱設計,例如:
■ 冷通道隔離
■ 熱通道隔離
■ 管線式散熱裝置
■ 后艙門換熱器
■ 專用機架散熱裝置,例如液體散熱
■ 吊頂式 HVAC 系統
■ 專用機架通氣管/排放管道
■ 搭配 CRAC 裝置的蒸發式自由空氣散熱
圖 3:帶專用機架通氣管的吊頂式 HVAC 系統
使用 CFD 可以快速、有效地評估上述所有選擇。
6: 研究不同的運營情形
CFD 可用于對數據中心填充過程中發生的條件變化進行建模。盡管數據中心通常是根據功能或功率密度進行填充的,但在群體坡道效應和預期生命周期方面仍采用不同的策略。例如,數據中心可能有大量需要在指定時段內填充的擴展空間。
在容量較低時,一些散熱策略會導致 PUE 高于其他策略,因此應尋求能夠在數據中心的設計壽命內提供最低總能耗的設計。使用 CFD 可確保散熱策略與數據中心容量高效匹配,以及確定填充數據中心容量的最佳方法,從而最大限度降低終生運營成本。
同理,不同的操作條件也可作為基準模型迭代加以考慮,例如,在資產利用率較低時,散熱裝置的功率載荷(及相應的熱載荷)、流量和操作等條件所發生的變化。CFD 還可用于研究使用指定的散熱策略時可應用于各個機架的最大功率,以幫助了解數據中心設計將如何配合未來的更高功率服務器,等。CFD 還可用于確定設備故障造成的影響,例如,由于 CRAC 設備故障導致重要位置發生的隨時間變化的(瞬態)溫度響應。
7: 使用捕捉指數來判斷設計適應性
捕捉指數 (CI) 為數據中心設計提供了一項重要工具。在確定設計優劣時,數據中心內的溫度分布并不總是最有效的方法,因此,有時可能無法為設計人員提供實施改進方面的指導。特別是,溫度分布是數據中心設計的“癥狀”而非“根源”。
可使用兩種形式的捕捉指數:冷通道 CI 和熱通道 CI.二者通常都表示為百分比。兩種指數越接近 100%,散熱系統的性能就越接近于“理想”情形。您可隨時使用此數據針對不同的備選設計制表,從而實現快速、輕松的比較。
圖 4:熱通道和冷通道捕捉指數的計算示例
8: 最大限度縮短模型運行時間
利用 FloTHERM 獨有的局域化網格技術,用戶可實現快速仿真周轉時間。
圖 5:通過機架展示局域化網格的傳統數據中心設計。
局域化網格可防止出現網格“膨脹”現象,即小型網格單元不必要地延伸至幾何形狀以外的環境空氣中。由于該功能可以更清晰地分離粗網格區域和細網格區域,因此非常適合數據中心應用。假定這些網格線在所有三個方向膨脹,并且總網格數為所有三個方向的單元數量乘積,則通過使用此技術可大幅減少單元數目。
機架散熱、CRAC/散熱機工作條件等典型的變量擾動對于數據中心內的總氣流和溫度分布造成的影響相對較小。因此,數據中心應用非常適合使用現有“基準”模型的結果作為后續分析的起點,以便縮短解決方案時間,因為這樣可以減少研究不同操作情形所需的迭代次數,并且在布局發生變化時也能起到作用。
最后,FloTHERM V10 中并行處理器求解器的速度提升似乎特別適合數據中心應用,與前一版本相比,某些情況下的速度提升超過 10 倍。
9: 使用命令中心來優化數據中心設計
命令中心包含的實驗和優化設計功能是標準 FloTHERM 軟件的一部分,利用該功能,用戶可以優化數據中心設計。例如,用戶可優化通過 CRAC 裝置的流量,使得特定機架或機架陣列獲得需要的入口溫度。
圖 6 顯示了訪問流量變量的命令中心對話框示例。請注意,其中還提供了 CRAC 容量等其他變量。
圖 6:展示訪問來自數據中心示例情形的 CRAC 裝置變量的示例對話框
數據中心試運行
10: 創建基于電子表格的前端
利用 FloTHERM 軟件中包含的 FloXML 架構,無需實際打開 FloTHERM 即可創建/運行數據中心模型或對其進行后處理。因此,它非常適合非專家級 CFD 用戶,例如被要求為某項數據中心設計排除故障的現場工程師。
數據可直接輸入到電子表格中,或者通過第三方源(例如包含機架物理尺寸、功率耗散等分析所需信息的 DCIM 軟件工具)進行求解。然后,此可配置電子表格前端可創建 FloXML 定義,而該定義本身就是一個可隨時求解(通過命令行)的 FloTHERM 模型。
然后可使用免費下載的 FloVIZ 軟件查看結果,將其傳回到后處理工具或捕捉到電子表格中。圖 7 中的示例顯示了此過程,圖 8 中則顯示了 FloXML 文件自身的一個示例。自 V10 版本以后,此類電子表格和FloXML 文件示例將隨 FloTHERM 軟件一同安裝。
圖 7:基于 Excel 的 CFD 分析過程和結果后處理
圖 8:數據中心案例的 XML 架構示例
數據中心運營
11: 對變更通知單產生的影響進行仿真
在運營期間,任何時候在收到增加新 IT 資產或移動現有資產的變更通知單時,都可以在實施變更之前,通過在以上創建的電子表格中進行必要的更改,來對變更給數據中心總體運營帶來的影響進行檢查。在使用邊界機房空調 (CRAC) 裝置的傳統設計中,由于數據中心內總氣流模式的改變,引入新資產或移動現有資產可能會對遠程位置的設備造成無法預料的后果。其他散熱策略即便在回流、分層和旁路方面具有卓越的性能,但在設備散熱方面同樣面臨挑戰。
結束語
傳統的邊界 CRAC 裝置布局側重于機房級設計,之后才會考慮其中包含的機架和設備。近期的設計方法(例如通道隔離),特別是液體散熱機架,則側重于單獨設備的散熱,而忽視了整個機房/冷通道的空氣散熱需求。兩種情形都假定數據大廳內的氣流環境能夠適應從試運行到滿載荷運行所用的散熱方法。
我們主張采用整體方法。在此方法中,散熱策略在數據中心設計期間經過 CFD 仿真驗證,從一開始便可滿足此業務目標,并且在試運行和運營期間,通過使用 CFD 來確保資產部署在面對不斷變化的業務需求和不斷增長的設備能耗背景下,仍可實現符合設計容量的利用率。
非常好我支持^.^
(0) 0%
不好我反對
(19) 100%
相關閱讀:
- [電子說] fpga的開發流程有哪些步驟?fpga和嵌入式系統的區別在哪里? 2023-10-24
- [電子說] STM32H7芯片系列中定時器同步啟動并輸出PWM波形的實現方法 2023-10-24
- [電子說] STM32H7時鐘I/O響應頻率和定時器最高頻率的測試方法 2023-10-24
- [人工智能] 研華推出EPC-B3000系列嵌入式工控機,搭載先進X86架構CPU,助力邊緣人工智能應用 2023-10-24
- [嵌入式技術] 探討嵌入式系統的軟硬件框架 2023-10-24
- [電子說] 專題一:為何選擇rk3588開發與Jetson Nano引腳兼容的嵌入式產品 2023-10-23
- [電子說] 專題二:為何選擇rk3588開發與Jetson Nano引腳兼容的嵌入式產品之規格對比 2023-10-23
- [電子說] GPU是否有替代方案? 2023-10-23
( 發表人:林錦翔 )