下面我将分场景、分品牌为您详细说明。
场景一:服务器开机自检失败,无法进入操作系统
这是最常见的查故障码场景,服务器在启动时会进行严格的硬件自检(POST),任何关键硬件(如CPU、内存、硬盘、电源、风扇)出现问题,都会中止启动并显示错误信息。
核心方法:查看液晶屏、指示灯和日志
1. 戴尔 PowerEdge 系列服务器
iDRAC(集成式戴尔远程访问控制器)这是最强大、最推荐的方法。
物理访问服务器背面有一个独立的 iDRAC 网络接口,用网线连接到管理网络,通过浏览器访问其IP地址(默认IP在服务器信息标签上)。
逻辑访问在开机自检时,看到 iDRAC 信息后按F2 进入“System Setup”,找到 iDRAC 设置,可以配置或查看IP。
在 iDRAC 界面中登录后,在“主页”或“仪表板”上会直接显示健康状态和警报,详细的故障日志在“日志 -> 系统事件日志” 或“故障排除 -> 生命周期控制器日志” 中,这里的日志会明确给出故障码(如PCIe Training Error: CPU 1)和描述。
前面板液晶屏多数戴尔服务器前面板有一个小液晶屏,开机自检失败时,这里会直接显示错误代码和信息(例如E1311、E2011),记下这个代码。
查询方法访问戴尔支持网站,搜索“Dell PowerEdge 错误代码”,找到官方PDF文档,根据代码查询具体含义。
指示灯
iDRAC Direct 指示灯一个小USB图标,常亮琥珀色表示有错误。
健康指示灯通常是一个“i”图标或扳手图标,琥珀色闪烁或常亮表示系统故障。
具体部件指示灯硬盘、电源、内存插槽附近都有状态指示灯,琥珀色或红色表示该部件故障。
2. 惠普 / HPE ProLiant 系列服务器
iLO(Integrated Lights-Out)功能与戴尔的 iDRAC 完全对应。
物理访问服务器背面有 iLO 专用管理网口。
逻辑访问开机自检时按F9 进入“System Utilities”,然后选择“iLO Configuration”来设置或查看IP。
在 iLO 界面中登录后,在“信息”选项卡的“运行状况”部分查看概要,详细日志在“信息 -> 集成管理日志” 中,日志会给出非常具体的故障信息和建议操作。
前面板显示屏/指示灯
Post Error Code 显示屏一些HPE服务器有数码管或小屏幕,会直接显示错误码(如A3、702)。
UID(统一标识灯)指示灯通常是一个蓝色灯,在系统有严重错误时,它会红色闪烁。
运行状况指示灯一个心形或对号图标,红色表示故障。
查询工具访问HPE支持网站,使用“iLO 事件日志解码器”工具,可以粘贴日志内容进行分析。
3. 联想 ThinkSystem 系列服务器
XClarity Controller联想的管理控制器,相当于 iDRAC 和 iLO。
* 访问方式类似,通过专用管理口或开机按F1 进入设置界面配置。
* 在 XClarity Controller 的 Web 界面中,查看“系统监控 -> 事件日志”。
前面板显示屏会滚动显示错误信息,如B4D2 等。
指示灯关注“系统错误”指示灯(通常是琥珀色扳手图标)。
4. 超微 Supermicro 系列服务器
IPMI超微使用标准的IPMI接口进行管理。
* 访问方式与上述品牌类似,通过专用的IPMI管理口。
* 在 IPMI 的 Web 界面(通常是基于Java的)中,查看“系统事件日志”。
开机POST代码显示器很多超微主板自带一个两位数的POST代码显示屏,如果卡在某个代码不动(如A0、D6),记下这个代码,然后查阅该主板的《用户手册》 中的“POST代码说明”章节。
场景二:服务器能进入操作系统,但运行不稳定或出现告警
服务器的硬件可能没有完全失效,但存在性能下降或预测性故障。
核心方法:使用操作系统内的工具和厂商管理软件
1、操作系统事件查看器:
Windows Server打开“事件查看器”,重点关注“Windows 日志 -> 系统” 和“应用程序和服务日志 -> Hardware”,硬件错误(如内存纠错、磁盘警告)会记录在这里。
Linux使用dmesg 命令查看内核环缓冲区消息,硬件错误通常会在这里打印出来,也可以查看/var/log/messages 或使用journalctl 命令。
2、厂商的系统管理软件:
戴尔OpenManage Server Administrator(OMSA),安装后,可以通过Web界面或命令行监控服务器健康状态和查看日志。
HPESystem Management Homepage(SMH)或 ProLiant Support Pack(PSP)。
* 这些软件会提供一个操作系统内的视图,直接读取硬件传感器的状态和日志,比操作系统自带的日志更详细、更准确。
3、检查RAID卡状态:
* 如果怀疑硬盘问题,需要进入RAID卡的管理界面(通常在开机时按Ctrl+R 等特定键),查看虚拟磁盘和物理磁盘的状态,任何Degraded(降级)、Offline(离线)或Predictive Failure(预测性故障)都是明确的故障指示。
1、保持冷静,先观察:不要急于重启,仔细阅读液晶屏上的错误信息,观察所有指示灯的状态。
2、优先使用带外管理:iDRAC、iLO、XClarity、IPMI 是排查故障的“瑞士军刀”,即使服务器关机也能访问(需要电源接通),这是最高效的方法。
3、记录错误代码:无论是液晶屏上的代码,还是日志中的事件ID,完整地记录下来。
4、查阅官方文档:
* 访问服务器厂商的官方网站。
* 进入“支持”或“驱动与下载”页面。
* 输入您的服务器型号(如 PowerEdge R740)。
* 查找《用户手册》、《维修手册》 或《故障排除指南》,里面会有错误代码的详细解释和解决步骤。
5、联系技术支持:当您拿到明确的故障码和日志后,联系厂商技术支持会事半功倍,他们可以根据这些信息快速定位问题,并可能需要您提供日志文件进行深入分析。
流程就是:看屏幕/灯 -> 登录管理口(iDRAC/iLO) -> 查日志 -> 记代码 -> 查手册/联系支持。
文章摘自:https://idc.huochengrm.cn/fwq/19262.html
评论
波宛白
回复如何用服务器查故障码?首先确保服务器具备故障诊断功能,然后进入系统管理界面,选择故障诊断模块,输入相关指令或查询条件,系统将自动检索并显示故障码及详细信息。