編者按:數字經濟時代,隨著數據中心規模的不斷擴大和數據量的爆發式增長,存儲技術的重要性日益顯著,?直接關系到數據中心的運行性能、效率和安全可靠。?基于平頭哥在存儲主控芯片領域的創新實踐,策劃推出存儲技術專欄系列——【存儲技談】,共同探討存儲發展趨勢。
在數字化轉型加速的今天,數據量呈幾何級增長,對數據的處理速度和安全性提出了更高的要求,這使得企業級存儲設備正面臨前所未有的挑戰。從云數據中心的多租戶資源隔離,到邊緣計算場景的實時響應需求,SSD的QoS(Quality of Service,服務質量)能力已成為決定時延敏感型業務穩定性和資源利用率的關鍵技術指標。
隨著SSD容量提升和全閃存陣列的普及,單一存儲設備需同時承載多種業務負載(如數據庫、虛擬化、大數據分析等),資源競爭成為常態。良好的QoS設計,可以通過動態分配帶寬、控制時延,并進行優先級調度,確保業務獲得穩定、可預測的存儲性能;還可以避免低優先級任務占用過多資源導致關鍵業務的性能波動?。例如,在云服務場景中,可隔離不同租戶的IO請求,防止“鄰居干擾”問題;在AI訓練場景中,突發IO流量和邊緣計算的低時延要求,也需要通過QoS技術提供動態資源保障?。
值得注意的是,不同場景對Qos的訴求各具特色。例如,MySQL場景中,IOPS的一致性很敏感;視頻類的流媒體中,對讀寫帶寬的預留需求很高;而在高頻實時交易中,對時延百分位要求很高。
針對上述需求,平頭哥存儲技術團隊憑借深度軟硬件協同設計,通過IOPS一致性、帶寬分配、時延控制三個核心技術構建了全場景的QoS保障體系,為金融交易、視頻流媒體、AI訓練等關鍵業務提供"性能零波動"的存儲體驗。
IOPS一致性:為波動流量裝上平滑濾波器
在數據庫事務處理、實時數據分析等場景中,業務流量的瞬時波動可能導致IOPS劇烈震蕩。當業務本身下發的流量存在波動時,如果SSD一味的及時響應就會導致業務感知到IOPS的波動,因此我們需要對業務發出的IOPS請求進行濾波處理,可以使I/O操作按照規定頻率執行,再反饋給業務層,從而減少業務對IOPS波動的感知。
鎮岳510創新性地采用基于命令粒度的IOPS流控。所謂“基于命令粒度”,指的是根據每個單獨I/O命令的特點—包括其類型(如讀、寫)、優先級及實時性要求—來進行IOPS的調控。通過精確地控制前端IO下發的間隔,讓每個IO平滑地下發給固件處理,再返回給業務,硬件控制的優勢是可以將精度控制在1%以內。這項技術如同為SSD裝上了智能節拍器,讓IO請求以恒定頻率流轉,即使面對突發流量沖擊,業務端也能感知到平滑穩定的I/O響應。
在虛擬化環境中,鎮岳510還實現了多虛擬設備獨立IOPS流控的支持,不同租戶的虛擬機可配置差異化IOPS上限,徹底杜絕"鄰居干擾"現象,給業務帶來穩定的IOPS體驗。
帶寬彈性分配:讓每比特流量找到最優路徑
在視頻類的流媒體的業務中,業務需要大量穩定的讀帶寬以及小部分穩定的寫帶寬。但在日志備份的業務中則正好相反,需要大量穩定的寫帶寬以及小部分穩定的讀帶寬。如果讀寫帶寬沒有一個穩定的分配機制,就無法滿足業務的需求。
鎮岳510擁有一套靈活的帶寬控制機制,可以分別獨立控制讀寫總帶寬、讀帶寬、寫帶寬,實現讀寫帶寬按需分配互不干擾。
考慮到IO流量可能會來自不同的業務,不同業務對IO流量的訴求是不同的,鎮岳510在讀寫帶寬的控制通路上繼續細分了多組不同需求的帶寬控制,便于業務的靈活配置。
鎮岳510帶寬分配流程圖
時延百分位:將微秒級優化做到極致
在高頻交易、云游戲等時延敏感的業務中,細微的時延波動會被放大,最終會體現在交易的遲緩,游戲畫面的卡頓。存儲業界使用百分位時延指標來衡量一款SSD所提供的存儲服務的質量,也即QoS。
鎮岳510芯片內部通過對命令通路的全鏈路優化,構建了前端、中端和后端三級時延控制體系:
1前端:IO調度與優先級隔離
增加overlap功能,使讀寫IO可以單獨處理,避免因LBA地址重疊導致IO隊列串行排隊,減少IO等待時延。與此同時,鎮岳510芯片還對IO做了多重優先級的區分,確保時延敏感的高優先級IO得到優先處理,保證其時延的穩定。為寫IO增加大容量高速緩沖,杜絕IO訪問普通DDR帶來的時延。
2中端:硬件加速與固件優化
增加自研的硬件輔助固件的加速功能,比如讀改表的操作、最優讀電壓的選擇等等,這些硬件加速模塊可以將IO命令的處理開銷掩藏在IO傳輸過程中,從而降低固件操作導致的時延開銷。同時也允許固件根據業務的特點進行靈活的數據排布,實現讀、寫IO的效率優化。
3后端:Loop消除與時延監測
鎮岳510芯片強大的LDPC引擎,通過獨創的Loop消除技術,不僅可以將Error Floor降低一個數量級,亦可大幅減少譯碼迭代次數,最大限度的譯碼一次成功,降低了譯碼時延。而數據通路上的Cut-through快速數據通路,可以減少一次數據搬移,直接將NAND中的數據搬移到主機內存;此外,鎮岳510芯片支持靈活的suspend算法,針對不同的業務模型,配置最優的suspend參數,最大化的降低讀寫擦沖突所引入的IO時延。
更值得一提的是,鎮岳510技術團隊自創的HW-Acc Latency Statistics技術,可實時監測每個IO節點的時延分布,且完全不增加運行時開銷。這項技術如同給SSD安裝了"性能CT機",幫助SSD開發者以及存儲系統的運維人員,精準定位性能、時延瓶頸所在,優化系統及固件,真正做到實時問題,實時定位。
鎮岳510QoS技術總圖
從金融核心交易系統的毫秒級響應,到視頻直播平臺的帶寬動態調度,再到云原生環境的多租戶隔離,平頭哥鎮岳510通過QoS技術矩陣重新定義了企業級存儲的價值標準。通過可配置的QoS策略模板,讓SSD開發者能夠像調節水龍頭一樣靈活控制存儲資源,真正做到了對業務場景的完美適配。
-
芯片
+關注
關注
459文章
52174瀏覽量
436135 -
存儲技術
+關注
關注
6文章
753瀏覽量
46225 -
SSD
+關注
關注
21文章
2950瀏覽量
119107 -
IOPs
+關注
關注
0文章
12瀏覽量
14386
原文標題:【存儲技談】“三位一體”構建鎮岳全場景QoS保障體系
文章出處:【微信號:gh_65bdec3412bd,微信公眾號:平頭哥半導體】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
自研LDPC算法,揭秘鎮岳510 Errorfloor降低一個數量級的技術密碼

阿里的量子芯片竟然比“平頭哥”更受關注?
平頭哥的“量子芯片”即將問世
平頭哥專用SoC芯片研發提上日程
平頭哥首顆SSD主控芯片鎮岳510問世,將率先在阿里云數據中心部署
阿里平頭哥發布首顆SSD主控芯片:鎮岳510
平頭哥發布專為云計算的首顆SSD主控芯片鎮岳510
阿里平頭哥發布“鎮岳510”入局存力領域芯片

平頭哥發布首顆PCle5.0 SSD主控芯片鎮岳510!4μs超低時、誤碼率領先行業標桿一個數量級!

平頭哥SSD主控芯片鎮岳510性能分析

平頭哥半導體攜鎮岳510亮相2023中國數據與存儲峰會

平頭哥半導體榮獲“中國芯”優秀技術創新產品獎
平頭哥鎮岳510如何提升SSD響應速度

評論