服务器中的硬件指什么?

服务器中的硬件指什么?——拆开那台永不关机的“铁盒子”

服务器中的硬件指什么

如果你第一次走进机房,大概率会被那种嗡嗡的噪音和闪烁的指示灯震慑住,一排排黑色的铁盒子整齐地码在机柜里,每一台都像沉默的哨兵,这些铁盒子就是服务器,你可能天天在用它们——刷视频、点外卖、发邮件、存照片,背后全是它们在工作,但你真的知道,服务器里的硬件到底是什么吗?它跟你的个人电脑有什么不一样?为什么一台服务器能卖几十万甚至上百万?

我们不聊高深的理论,就把它拆开,看看里面到底住着哪些“房客”。

一、那块最贵的“大脑”:CPU

服务器的“大脑”当然是中央处理器(CPU),但服务器用的CPU跟家里电脑用的,有天壤之别。

先说品牌,Intel的Xeon(至强)系列和AMD的EPYC(霄龙)系列是绝对的主流,你用的酷睿i7可能只有8个核心,但一颗高端的Xeon Platinum能拥有28个核心甚至更多,注意,这里是物理核心,不是超线程,为什么要这么多核心?因为服务器往往同时要处理几百、几千个请求——比如一个电商网站每秒可能有上万个订单查询,核心越多,并行处理能力越强,就好比一个超市开了几十个收银台,大家都不用排队。

服务器中的硬件指什么

还有一样东西是关键:缓存,服务器的CPU缓存通常比家用CPU大得多,动辄几十MB甚至上百MB,缓存是为了让CPU少去内存里“搬砖”,因为内存再快也比CPU内部慢得多,缓存足够大,很多数据可以就近拿到,效率飙升。

服务器CPU支持一种叫“RAS”的特性——Reliability(可靠性)、Availability(可用性)、Serviceability(可服务性),简单说,就是它能自己检测错误,甚至在不关机的情况下替换故障部件,比如内存出错了,CPU可以自动标记那个坏掉的内存块,不再使用,机器照常运行,普通电脑遇到这种问题早就蓝屏了。

二、那个“短命”的记忆:内存

服务器的内存叫做“RDIMM”或“LRDIMM”,不是你家PC上的“UDIMM”,区别在于,服务器内存多了一个叫“寄存器”(Register)的芯片,用来缓冲地址和控制信号,这样可以让一条内存通道上插更多的内存条,而且更稳定。

容量呢?家用电脑16GB、32GB已经算不错了,但一台服务器动辄128GB起步,256GB、512GB很常见,大型数据库服务器甚至达到数TB,为什么需要这么大?因为数据库、虚拟机、内存缓存这些应用,恨不得把所有数据都塞进内存里——内存读写比硬盘快几个数量级,比如你查一个订单信息,如果数据在内存里,响应时间几微秒;如果在硬盘上,可能几毫秒,差了上千倍。

服务器中的硬件指什么

还有一个重要的特性:ECC,这是Error-Correcting Code(纠错码)的缩写,普通内存如果发生一位比特翻转(比如宇宙射线干扰),数据就错了,你可能看到图片花屏、文件损坏,而ECC内存可以自动检测并纠正单比特错误,对于银行、医疗、航天这些不能出错的应用来说,这是标配。

顺便说一句,服务器内存是支持“热插拔”的——当然前提是你得有一台高端服务器和特定的硬件设计,在线的服务器可以拔出坏掉的内存条换新的,不停机。

三、那个“慢但大”的仓库:存储

服务器的存储系统比个人电脑复杂得多,主要有两种:HDD(机械硬盘)和SSD(固态硬盘),但服务器用的HDD通常是企业级的,比如SAS接口(Serial Attached SCSI)的硬盘,转速10000RPM甚至15000RPM,比普通7200转的硬盘快很多,而且它们为7×24小时连续运行设计,平均无故障时间(MTBF)可达200万小时以上。

现在越来越多的服务器用NVMe SSD,NVMe是通过PCIe总线直接连接的,延迟极低,带宽极高,一块消费级的NVMe SSD顺序读写可能3GB/s,企业级的可以达到7GB/s甚至更高,更重要的是,企业级SSD的寿命(写入量)远高于消费级,因为服务器可能每小时写入几百GB的数据。

但光有硬盘还不够——服务器需要“阵列”,也就是RAID(独立磁盘冗余阵列),RAID可以在多块硬盘之间形成冗余:比如RAID 1就是两块硬盘完全镜像,坏一块还能用;RAID 5用三块以上的硬盘,通过奇偶校验允许坏一块;RAID 6允许坏两块,如果你不想丢数据,服务器的存储不能单打独斗,有些服务器还带专门的RAID卡(硬件RAID),上面有自己的缓存和电池,即使意外断电也能保证数据不会丢失。

还有更高级的:存储区域网络(SAN)和网络附加存储(NAS),服务器本身可能只装操作系统,真正的数据存在外部存储上,通过光纤通道或以太网连接,这种架构下的“硬件”就不仅是服务器内部的硬盘了,还包括光纤交换机、存储控制器、扩展柜……那是另一个世界。

四、那个“桥梁”:主板与芯片组

服务器的主板(Motherboard)比PC主板大很多,通常是E-ATX甚至更奇怪的尺寸,上面密密麻麻的插槽:CPU插座通常是两个(双路)或四个(四路),也就是一台服务器可以装多颗CPU,内存插槽多达十几个甚至二十几个,PCIe插槽也很多,用来插显卡(有些服务器需要GPU做计算)、网卡、RAID卡等。

芯片组是连接CPU和其他硬件的枢纽,Intel的C620系列芯片组(比如C621、C622)就是为Xeon Scalable处理器配套的,它提供了大量的PCIe通道、USB口、SATA口,以及管理接口(后面会说到),服务器主板的设计强调稳定和冗余:比如双BIOS芯片,一个坏了另一个还能启动;多个千兆甚至万兆网口;还有专用的IPMI管理口。

五、那个“隐形管家”:BMC与IPMI

这是普通用户完全陌生的硬件,但却是服务器最核心的管理单元,BMC(基板管理控制器)是一个独立的微型计算机,嵌在主板上,它有自己的处理器、内存、网口,甚至一个小型操作系统,即使主机关机、操作系统崩溃,只要电源线插着,BMC就活着。

通过IPMI(智能平台管理接口)协议,管理员可以在世界上任何地方远程控制这台服务器——开机、关机、重启、查看硬件状态、监控温度电压、甚至挂载远程ISO光盘来重装系统,想象一下,数据中心在另一个城市,夜里2点报警说服务器温度过高,你可以在家打开笔记本连到BMC,查看哪个风扇坏了,然后远程调整策略,或者直接关机防止损坏,如果没有BMC,就得开车去机房,那成本和时间都受不了。

BMC的网口通常标着“IPMI”或“Mgmt”,和业务网口分开,有些服务器还带独立的KVM(键盘/视频/鼠标)切换器,但现代数据中心基本都走IPMI了。

六、那个“大力士”:电源与散热

服务器电源不是你电脑里那个普通ATX电源,它们是冗余设计的——通常一个服务器插两个或四个电源模块,每个模块功率从几百瓦到几千瓦不等,工作时,两个电源分担负载;如果其中一个坏了,另一个立刻承担全部负载,服务器不会掉电,你可以热插拔坏掉的电源模块换新的,整个过程服务器正常运行。

散热方面,服务器风道很讲究,机箱内部有多个高速风扇,通常是N+1冗余的,即需要三个风扇保证散热的话,就装四个,坏一个还能撑,这些风扇转速很高,所以机房噪声很大,有些高端服务器用液冷,比如直接给CPU、内存甚至GPU通冷却液,效率更高,但成本也高。

七、那个“高速公路”:网络接口

服务器需要连接外部世界,网卡是基本配置,现在主流是10GbE(万兆以太网),很多新服务器已经上25GbE、40GbE甚至100GbE,网卡可以是主板集成的,也可以是独立PCIe卡,为了高可用,通常有多个网口做绑定(Bonding),比如两个万兆网口组合成一个逻辑接口,带宽翻倍,同时一条链路断了另一条自动接管。

还有智能网卡(SmartNIC),上面有自己的处理器,可以卸载网络、存储、安全等任务,减轻CPU负担,这在超大规模数据中心里很常见。

八、其他你可能不知道的“小东西”

TPM芯片:可信平台模块,用于硬件加密,存储密钥,防止硬件被篡改,很多政企客户强制要求。

VROC(Virtual RAID on CPU):Intel的一种技术,利用CPU的PCIe通道直连NVMe SSD做RAID,省去RAID卡。

FPGA:现场可编程门阵列,一些服务器用它做加速,比如网络包处理、AI推理。

GPU:深度学习、科学计算用的服务器经常插满了NVIDIA A100、H100或AMD的Instinct加速卡,价格比服务器本身还贵。

写在最后:硬件的“合奏”

服务器中的硬件不是简单的一堆零件,而是一套为“永不关机、永不犯错、永远响应”而设计的系统,CPU追求多核稳定,内存追求大容量带纠错,存储追求冗余和速度,网络追求低延迟和高带宽,而BMC则是它的“后台指挥官”。

你可能永远不会直接摸到这些硬件,但每天上网购物、刷视频、发消息,背后就是无数台这样的“铁盒子”在机房里嗡嗡作响,每一块硬件都在自己的岗位上尽忠职守,用最可靠的方式,撑起你指尖的一触即发。

下次当你打开一个网页时,或许可以想象一下:在那个遥远的机房,一颗Xeon CPU正在处理你的请求,数据从NVMe SSD里被读取,经过ECC内存校验,再通过万兆网卡发送出来……所有这一切,都在一瞬间完成,这就是服务器硬件的魅力——看不见,但无处不在。

文章摘自:https://idc.huochengrm.cn/js/26291.html

评论