服务器无征兆异常重启
针对服务器无异常,无征兆,BMC无告警的情况下,服务器开机进入系统后,固定(10~30)分钟无限重启
1、检查服务器BIOS,BMC是否有WATCH_DOG功能
2、功能选项说明
| 说明 | 选项 |
Os boot watchdog timer
| 是否启用服务器watchdog功能(开启后,会通过Os boot watchdog timer timeout选项的配置,固定时间检查os系统中是否存在watchdog进程) | enabled/disabled |
Os boot watchdog timer policy | 如果无法检测到watchdog进程,会对服务器执行的操作 | Power off / reset /do nothing |
Os boot watchdog timer timeout | 通过配置的时间,每隔多久,检查系统中是否存在watchdog进程 | ??? minutes |
3、如果服务器有watchdog功能,并且开启,此功能会定时检查os系统中是否有watchdog进程,如果不存在就会通过Os boot watchdog policy 选择的配置来对服务器进行操作(无征兆),在配置到reset的情况下会每(Os boot watchdog timer timeout)时间进行重启。
4、解决方法
一、将Os boot watchdog timer配置为disabled来解决此问题。
二、将Os boot watchdog timer policy配置为do nothing来解决此问题。
三、在os中下载watchdog服务并启用来解决此问题
5、此三种方法适用于所有BMC、BIOS带有WATCH_DOG功能的服务器