問題
最近在Ubuntu上使用Nvidia GPU訓練模型的時候,沒有問題,過一會再訓練出現非常卡頓,使用nvidia-smi查看發現,顯示GPU的風扇和電源報錯:
解決方案
自動風扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風扇轉速不足使GPU過熱導致的。
首先開啟GPU的persistent mode,再設置風扇的功率,重啟即可生效。其中250代表的是風扇的最大功率限制,可以將其設置為最大,這樣過熱的時候風扇就會自動加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動風扇控制
此外,還可以將GPU風扇的手動風速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有gpu在xserver中的設置(不使用sudo可能無權限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機器上有多塊gpu,在第一步命令執行后,會在這個xorg.conf中出現多個DeviceSection,都依次執行第三步操作
重啟機器后,命令行執行nvidia-settings,會打開設置界面,在其中的會顯示所有GPU的設置選項,每個GPU控制選項下面都有一個Thermal settings,進入后打開enable GPU Fan Setting即可對風扇進行手動風速調整了。
-
NVIDIA
+關注
關注
14文章
5226瀏覽量
105652 -
gpu
+關注
關注
28文章
4903瀏覽量
130569
發布評論請先 登錄
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發
0xmd公司通過NVIDIA GPU打造醫療AI解決方案
NVIDIA技術助力Pantheon Lab數字人實時交互解決方案
《CST Studio Suite 2024 GPU加速計算指南》
Supermicro推出直接液冷優化的NVIDIA Blackwell解決方案

AMD與NVIDIA GPU優缺點

NVIDIA全面轉向開源GPU內核模塊

遠程IO常見報錯及解決方案,輕松應對遠程控制難題
恒訊科技的GPU云解決方案有什么特點和優勢?
英偉達考慮縮減RTX 5090 Founder版顯卡尺寸,配備雙槽雙風扇設計
使用OpenUSD和NVIDIA Omniverse開發虛擬工廠解決方案

評論