如何用服务器查故障码?

下面我将分场景、分品牌为您详细说明。

场景一:服务器开机自检失败,无法进入操作系统

这是最常见的查故障码场景,服务器在启动时会进行严格的硬件自检(POST),任何关键硬件(如CPU、内存、硬盘、电源、风扇)出现问题,都会中止启动并显示错误信息。

核心方法:查看液晶屏、指示灯和日志

1. 戴尔 PowerEdge 系列服务器

iDRAC(集成式戴尔远程访问控制器)这是最强大、最推荐的方法。

物理访问服务器背面有一个独立的 iDRAC 网络接口,用网线连接到管理网络,通过浏览器访问其IP地址(默认IP在服务器信息标签上)。

逻辑访问在开机自检时,看到 iDRAC 信息后按F2 进入“System Setup”,找到 iDRAC 设置,可以配置或查看IP。

在 iDRAC 界面中登录后,在“主页”或“仪表板”上会直接显示健康状态和警报,详细的故障日志在“日志 -> 系统事件日志”“故障排除 -> 生命周期控制器日志” 中,这里的日志会明确给出故障码(如PCIe Training Error: CPU 1)和描述。

前面板液晶屏多数戴尔服务器前面板有一个小液晶屏,开机自检失败时,这里会直接显示错误代码和信息(例如E1311E2011),记下这个代码。

查询方法访问戴尔支持网站,搜索“Dell PowerEdge 错误代码”,找到官方PDF文档,根据代码查询具体含义。

指示灯

iDRAC Direct 指示灯一个小USB图标,常亮琥珀色表示有错误。

健康指示灯通常是一个“i”图标或扳手图标,琥珀色闪烁或常亮表示系统故障。

具体部件指示灯硬盘、电源、内存插槽附近都有状态指示灯,琥珀色或红色表示该部件故障。

2. 惠普 / HPE ProLiant 系列服务器

iLO(Integrated Lights-Out)功能与戴尔的 iDRAC 完全对应。

物理访问服务器背面有 iLO 专用管理网口。

逻辑访问开机自检时按F9 进入“System Utilities”,然后选择“iLO Configuration”来设置或查看IP。

在 iLO 界面中登录后,在“信息”选项卡的“运行状况”部分查看概要,详细日志在“信息 -> 集成管理日志” 中,日志会给出非常具体的故障信息和建议操作。

前面板显示屏/指示灯

Post Error Code 显示屏一些HPE服务器有数码管或小屏幕,会直接显示错误码(如A3702)。

UID(统一标识灯)指示灯通常是一个蓝色灯,在系统有严重错误时,它会红色闪烁

运行状况指示灯一个心形或对号图标,红色表示故障。

查询工具访问HPE支持网站,使用“iLO 事件日志解码器”工具,可以粘贴日志内容进行分析。

3. 联想 ThinkSystem 系列服务器

XClarity Controller联想的管理控制器,相当于 iDRAC 和 iLO。

* 访问方式类似,通过专用管理口或开机按F1 进入设置界面配置。

* 在 XClarity Controller 的 Web 界面中,查看“系统监控 -> 事件日志”

前面板显示屏会滚动显示错误信息,如B4D2 等。

指示灯关注“系统错误”指示灯(通常是琥珀色扳手图标)。

4. 超微 Supermicro 系列服务器

IPMI超微使用标准的IPMI接口进行管理。

* 访问方式与上述品牌类似,通过专用的IPMI管理口。

* 在 IPMI 的 Web 界面(通常是基于Java的)中,查看“系统事件日志”

开机POST代码显示器很多超微主板自带一个两位数的POST代码显示屏,如果卡在某个代码不动(如A0D6),记下这个代码,然后查阅该主板的《用户手册》 中的“POST代码说明”章节。

场景二:服务器能进入操作系统,但运行不稳定或出现告警

服务器的硬件可能没有完全失效,但存在性能下降或预测性故障。

核心方法:使用操作系统内的工具和厂商管理软件

1、操作系统事件查看器

Windows Server打开“事件查看器”,重点关注“Windows 日志 -> 系统”“应用程序和服务日志 -> Hardware”,硬件错误(如内存纠错、磁盘警告)会记录在这里。

Linux使用dmesg 命令查看内核环缓冲区消息,硬件错误通常会在这里打印出来,也可以查看/var/log/messages 或使用journalctl 命令。

2、厂商的系统管理软件

戴尔OpenManage Server Administrator(OMSA),安装后,可以通过Web界面或命令行监控服务器健康状态和查看日志。

HPESystem Management Homepage(SMH)或 ProLiant Support Pack(PSP)。

* 这些软件会提供一个操作系统内的视图,直接读取硬件传感器的状态和日志,比操作系统自带的日志更详细、更准确。

3、检查RAID卡状态

* 如果怀疑硬盘问题,需要进入RAID卡的管理界面(通常在开机时按Ctrl+R 等特定键),查看虚拟磁盘和物理磁盘的状态,任何Degraded(降级)、Offline(离线)或Predictive Failure(预测性故障)都是明确的故障指示。

1、保持冷静,先观察:不要急于重启,仔细阅读液晶屏上的错误信息,观察所有指示灯的状态。

2、优先使用带外管理iDRAC、iLO、XClarity、IPMI 是排查故障的“瑞士军刀”,即使服务器关机也能访问(需要电源接通),这是最高效的方法。

3、记录错误代码:无论是液晶屏上的代码,还是日志中的事件ID,完整地记录下来。

4、查阅官方文档

* 访问服务器厂商的官方网站。

* 进入“支持”或“驱动与下载”页面。

* 输入您的服务器型号(如 PowerEdge R740)。

* 查找《用户手册》《维修手册》《故障排除指南》,里面会有错误代码的详细解释和解决步骤。

5、联系技术支持:当您拿到明确的故障码和日志后,联系厂商技术支持会事半功倍,他们可以根据这些信息快速定位问题,并可能需要您提供日志文件进行深入分析。

流程就是:看屏幕/灯 -> 登录管理口(iDRAC/iLO) -> 查日志 -> 记代码 -> 查手册/联系支持。

文章摘自:https://idc.huochengrm.cn/fwq/19262.html

评论

精彩评论
  • 2025-10-30 02:48:47

    如何用服务器查故障码?首先确保服务器具备故障诊断功能,然后进入系统管理界面,选择故障诊断模块,输入相关指令或查询条件,系统将自动检索并显示故障码及详细信息。