如何正确移除服务器中的故障硬盘?

移除服务器坏硬盘的流程需要谨慎操作,确保数据安全和系统稳定,以下是标准操作步骤:

一、准备工作

**确认硬盘故障

Linux查看磁盘状态
sudo smartctl -a /dev/sdX
sudo dmesg | grep -i error
sudo cat /proc/mdstat  # 查看RAID状态
使用RAID管理工具
sudo megacli -PDList -aAll | grep -E "Slot|Firmware|Inquiry|Error"

**备份重要数据

如果有单盘重要数据,先备份
rsync -av /path/to/data /backup/location/

二、不同RAID级别处理流程

**1. 硬件RAID环境

查看RAID状态
sudo storcli /c0 show all
或
sudo megacli -LDInfo -LAll -aAll
标记坏盘离线
sudo storcli /c0/eY/sX set offline
标记为缺失
sudo storcli /c0/eY/sX set missing
物理移除前准备
sudo storcli /c0/eY/sX start locate  # 指示灯闪烁
sudo storcli /c0/eY/sX stop locate   # 停止闪烁后拔盘

2. 软件RAID(Linux MDADM)

查看RAID状态
cat /proc/mdstat
sudo mdadm --detail /dev/mdX
标记故障盘
sudo mdadm --manage /dev/mdX --fail /dev/sdX1
移除故障盘
sudo mdadm --manage /dev/mdX --remove /dev/sdX1
查看剩余磁盘
sudo mdadm --detail /dev/mdX

**3. ZFS环境

查看池状态
zpool status
标记磁盘为故障
zpool offline poolname device
替换磁盘(后续操作)
zpool replace poolname old-device new-device

三、物理移除步骤

**1. 热插拔流程

1、确认指示灯:故障盘指示灯常亮或闪烁

2、安全卸载

   # 如果有挂载,先卸载
   sudo umount /dev/sdX1

3、拔出硬盘

- 按下硬盘托架释放按钮

- 平稳拉出硬盘托架

- 等待30秒让系统识别

**2. 冷更换流程

1、关机顺序

   sudo shutdown -h now
   # 或
   sudo init 0

2、断电操作

- 关闭服务器电源

- 拔掉电源线

- 等待1分钟放电

3、物理更换

- 打开机箱

- 拔掉硬盘数据线和电源线

- 卸下固定螺丝/卡扣

- 更换新硬盘

四、更换后操作

**1. 新硬盘识别

重新扫描SCSI总线
echo "- - -" > /sys/class/scsi_host/hostX/scan
或重启RAID卡
sudo storcli /c0 rescan

**2. 重建RAID

自动重建(多数硬件RAID)
手动触发重建
sudo storcli /c0/eY/sX start insert
MDADM重建
sudo mdadm --manage /dev/mdX --add /dev/sdY1

**3. 验证重建

查看重建进度
sudo watch -n 1 'cat /proc/mdstat'
或
sudo storcli /c0 show rebuild

五、注意事项

**⚠️ 重要警告

1、RAID 0或无冗余:必须先备份数据

2、多盘故障:如果RAID 5/6有多块盘故障,不要操作,联系专业人员

3、缓存电池:确保RAID卡电池正常,避免重建中断

4、顺序问题:一次只更换一块硬盘,等重建完成再换下一块

**📊 状态监控

设置监控
watch -n 60 'cat /proc/mdstat; df -h'
配置邮件报警
编辑 /etc/mdadm/mdadm.conf
MAILADDR admin@example.com

**🛠️ 工具准备

- 备用硬盘(同型号或兼容型号)

- 防静电手环

- 螺丝刀套装

- 控制台连接线(KVM/iDRAC/iLO)

六、不同厂商特定命令

厂商 查看状态命令 移除命令
Dellomreport storage pdiskomconfig storage pdisk
HPhpssacli ctrl all show confighpssacli ctrl slot=X pd X:I:J modify remove
IBMlsmcode -lrmdev -Rdl hdiskX

建议:对于生产服务器,优先通过带外管理(iDRAC/iLO/BMC)操作,避免影响系统运行,如不确定,联系厂商技术支持。

文章摘自:https://idc.huochengrm.cn/fwq/24801.html

评论