某日,同事反馈数据库节点2无法连接,持续发出探测告警,报错信息如下:

fc4988a77c5862ca22916f812b71c0eb.png

根据连接报错信息,可以看到提示Nospace left on device,这个报错大概率为oraclehome 的安装目录文件系统满了,进一步检查文件系统,情况如下:

81a51e7a9ac0770e1022af266b685437.png

可以看到/oracle使用率100%,可用空间不足16M.既然知道了原因,则清理清理相关日志信息问题将会得到解决。进入/oracle核实目录空间使用信息,找出大对象.

13ac1bd0eea2183b18d52c6073e04040.png

通过find核实并没有大于500M的日志信息,大于100M的文件信息也比较少,不像是大文件占用的问题,再次使用du核实目录空间信息.

b29abddcc58666e1150ab715fbf47d12.png

一翻检查发现/oracle下整个目录加起来才使用11g空间,其余空间去向未知.这种现象一般都是删除了某些大文件但是进程句柄未释放。

b6579e7218dc259848548aa89a0984f7.png

使用lsof检查/oracle目录下的句柄信息,这时我们发现tfa的java进程存在deleted状态的文件,但是句柄一直未释放,且占用空间接近80G.

ef885e35d02053cf496cbf081294d46f.png

重启tfa后,异常进程都将得到释放,至此该问题得到解决。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐