安全第一包括人身安全(防触电、防砸伤)和设备安全。
流程规范严格遵守机房管理制度和操作流程。
清晰沟通与相关部门(业务、网络、运维)保持沟通,确保操作窗口和影响范围明确。
完整记录对所有操作进行记录,方便审计和排查问题。
上架是指将新的服务器安装到机柜中,并使其投入运行的过程。
阶段一:准备工作 (Planning & Preparation)
1、审批流程:
* 提交工单或申请,获得进入机房的授权和操作时间窗口(通常是非业务高峰时段)。
* 明确上架服务器的业务归属、IP地址、主机名、机柜位置、U位(如 42U机柜的第 15-18U)等信息。
2、信息规划:
网络规划好服务器的管理口(iDRAC, iLO, BMC)、业务网口、IP地址、 VLAN信息等,并提前在交换机上配置好相应端口。
电源规划电源分配单元(PDU)的接口,确保两路不同源的供电(A路和B路),实现冗余。
资产信息准备好资产标签,包含主机名、IP、厂商、型号、序列号等信息。
3、工具准备:
硬件服务器导轨(与服务器型号匹配)、螺丝(通常服务器会附带)、螺丝刀(十字、一字)、带腕带的防静电手环、PDU电源线、网线、标签打印机、手推车。
软件提前准备好系统安装镜像、自动化部署脚本或配置管理工具(如 Ansible, SaltStack)的配置。
4、物理准备:
* 将服务器运至机房门口,拆除外部包装箱(纸箱和泡沫通常不允许带入机房内部,以防灰尘)。
阶段二:物理安装 (Physical Installation)
1、安装导轨:
* 根据规划的U位,将导轨的左右内侧轨道(L型件)准确安装在机柜的方孔条上,并用螺丝固定紧。
* 将导轨的滑动部分(通常是外轨)安装在服务器两侧相应的孔位上。
2、服务器上架:
两人协作服务器很重,最好两人一起操作,一人在前,一人在后,平稳地将服务器推入刚安装好的导轨中,直到听到“咔哒”一声锁止。
固定服务器使用配套的螺丝或卡扣将服务器前端与机柜方孔条固定,防止其意外滑出。
3、接线:
电源线将服务器的双电源模块分别连接到两路不同的PDU上,确保电源线插紧,且布线整齐,不遮挡通风口。
网线根据规划,连接业务网线、管理网线等,网线应顺着机柜理线器走线,并贴上标签,注明对端设备和端口号。
其他线缆如KVM线、光纤线等。
4、贴标签:
* 在服务器前后面板的显眼处贴上资产标签。
* 在所有线缆的两端贴上标签。
阶段三:上电与配置 (Power-on & Configuration)
1、远程管理口配置:
* 首先只接通管理口的网线,暂时不接业务网线。
* 接通电源,开机,通过另一台电脑连接到管理网络,访问服务器的管理口(如iDRAC/iLO)IP地址。
* 在管理界面中配置RAID、做物理磁盘初始化、设置虚拟磁盘、配置启动项、加载远程安装镜像(如ISO)。
2、系统安装与配置:
* 通过管理口的虚拟控制台,像操作本地电脑一样安装操作系统(如 Linux, Windows)。
使用自动化工具或手动配置系统IP地址、主机名、安全策略(防火墙、SSH)、安装监控Agent(如Zabbix Agent)、加入配置管理系统等。
3、业务接入:
* 系统配置无误后,连接业务网线。
* 将服务器纳入负载均衡集群或应用集群,进行健康检查。
* 逐步导入少量业务流量进行测试(灰度发布)。
4、验证与监控:
验证服务是否正常端口是否监听、应用程序日志是否有错误、性能监控数据是否正常。
* 观察一段时间,确保服务器运行稳定。
5、文档更新:
* 更新CMDB(配置管理数据库)和资产清单,记录服务器的所有信息。
* 绘制更新后的网络拓扑图和机柜图。
第二部分:服务器下架 (Decommissioning)
下架是指将旧服务器从机柜中移除并停止服务的过程,通常用于设备报废或替换。
1、审批与通知:同样需要申请操作窗口,并提前通知所有相关业务方,明确下架影响和时间。
2、业务迁移:如果服务器还在提供服务,必须先将上面的业务平滑迁移到其他服务器上。
3、数据备份:确认所有需要保留的数据已经备份完毕并验证可用。
4、信息确认:确认待下架服务器的资产编号、位置、IP地址等信息。
阶段二:系统下电与拆除 (Shutdown & Removal)
1、业务下线:
* 在负载均衡或服务注册中心(如Nacos, Consul)中将该节点移除。
* 确认业务流量已完全切走,该服务器已无任何生产流量。
2、系统关机:
* 通过远程命令或管理口,安全地关闭操作系统。sudo shutdown -h now
* 等待系统完全关闭。
3、物理断电:
* 拔掉服务器后方的所有电源线,这是最关键的安全步骤!
* 粘贴“已下电”标签(可选但建议)。
4、拆除线缆:
* 拔掉所有网线、光纤、KVM线等,每拔下一根线,最好立即贴上标签或做好记录,以免混乱。
5、物理下架:
两人协作拧开固定螺丝,通常导轨会有释放扳手(拉簧),按下或拉开扳手,将服务器平稳地拉出导轨。
* 将服务器放在手推车上,运出机房。
1、清理配置:
* 在交换机上禁用或删除为该服务器配置的端口和VLAN。
* 在DHCP、DNS、防火墙、监控系统、CMDB中删除该服务器的所有相关记录,这一步非常重要,是防止“僵尸IP”和配置混乱的关键。
2、设备处理:
* 如果报废,需走资产报废流程,并对硬盘进行安全擦除或物理销毁,以防数据泄露。
* 如果替换,将设备移交至相应部门。
3、文档更新:
* 最终更新资产记录和机柜图纸,标记该U位为空闲。
防静电始终佩戴防静电手环,并将其可靠接地。
重量服务器非常重,切勿独自操作,务必使用正确的弯腰和发力姿势,防止腰部受伤。
线缆标签是运维人员的“生命线”,清晰的标签能极大提高排障效率。
整洁布线杂乱的线缆会影响散热和后续维护,使用理线器、魔术贴,保持机柜内部整洁。
一次一变如果同时操作多台设备,一次只处理一台,完成后再进行下一台,避免误操作。
沟通任何意外情况(如拔错线、服务器无法启动)都应立即停止操作并上报沟通。
遵循以上流程,可以最大程度地确保服务器上下架工作高效、安全、无误地完成。
文章摘自:https://idc.huochengrm.cn/fwq/15722.html
评论