ubuntu 系统风扇控制软件 CoolerControl
解决显卡在Linux下温度过高(86℃)且风扇转速不足的问题,作者先更新NVIDIA驱动未果,后使用CoolerControl软件成功将温度控制在80℃以下。通过设置风扇转速曲线,可同时调节CPU/GPU风扇。
背景
A6000显卡的温度一直都是86度左右,GPU的风扇转速不够大。
我首先把 nvidia的驱动更新了,但是发现风扇依然依然保持在较低的转速。
后面无意间搜到了CoolerControl 这个linux平台的风扇控制软件。设置之后,增加了风扇的转速,现在可以把GPU的温度控制在80度以下。
具体操作
参考教程:https://cn.linux-terminal.com/?p=8335
支持风扇固定转速与按照曲线设置转速。
下述图片是按照这个曲线控制风扇的转速,达到不同的温度,风扇保持不同的转速。不仅可以控制CPU的风扇还可以控制GPU的风扇。
CoolerControl 视频教程:https://www.bilibili.com/video/BV1oF9yYFEvc/
我发现B站和youtube关于CoolerControl软件的教程,其中主要也就是设置下面的曲线。

题外话
A6000显卡温度在85度以上,我早就注意到了,不想折腾,一直都懒得管。我发现在训练模型的时候,windows把GPU的温度压的比较好,一直都70度以下。Windows训练大模型不方便,还是得使用 linux 训练大模型。
我很多次使用 llamafactory 微调大模型的时候,模型训练一半linux系统就崩溃了,必须得按关机键重启。
首先,我便怀疑是不是显卡温度过高触发了硬件的保护机制,导致系统崩溃。后面我发现把GPU的温度压下来后,训练大模型依然会崩溃。
因为nvidia的驱动已经更新过了,不是驱动的问题。于是我把python环境从3.11升级到3.12,再把 llamafactory 的包重新安装了一遍,在装包的过程中,我发现安装了很多与nvidia相关的包。然后再训练大模型就不崩溃了。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)