在开始之前,请务必明确您的目的:
1、为没有PCIe插槽或插槽已满的服务器增加GPU算力:例如1U机架服务器空间紧张。
2、为虚拟机(VM)或容器提供GPU直通(Passthrough)功能:让某个虚拟机独占使用这张外置显卡。
3、临时测试或开发用途:避免拆卸服务器,方便更换不同的显卡进行测试。
核心原理:通过某种高速接口(如Thunderbolt 3/4、USB4、PCIe延长线等)将服务器内部的PCIe通道延伸出来,连接到外置显卡盒(eGPU Enclosure)中的显卡上。
服务器通常不像消费级笔记本或主板那样配备Thunderbolt接口,主要有以下两种方案:
方案一:使用专用外置显卡扩展坞(Thunderbolt / USB4)
这是最“即插即用”的方案,但前提是你的服务器主板必须带有Thunderbolt 3/4或USB4接口。
优点安装相对简单,线缆连接,支持热插拔(理论上)。
缺点
极其罕见绝大多数服务器主板不配备Thunderbolt接口,因为这不是服务器的标准配置。
性能损耗即使是最快的Thunderbolt 4(PCIe 3.0 x4),其带宽也远低于显卡直连主板上的PCIe x16插槽,对于高性能计算(HPC)或大规模AI训练,会有明显的性能损失。
成本高需要购买价格不菲的显卡扩展坞。
如果您的服务器恰巧有Thunderbolt接口,步骤很简单:
1、 购买一个支持 Thunderbolt 3/4 的外置显卡盒(如 Razer Core X, AKiTiO Node 等)。
2、 将显卡安装到显卡盒中。
3、 用 Thunderbolt 线连接服务器和显卡盒。
4、 为显卡盒接通电源。
5、 开机,在服务器操作系统中安装对应的显卡驱动(NVIDIA或AMD)。
方案二:使用PCIe扩展延长线(更适用于服务器的方案)
这是更实际、更常见的服务器外接方案,它直接利用服务器主板上的PCIe插槽。
优点
通用性强只要服务器有空余的PCIe插槽(通常是x8或x16)即可。
性能更好可以选择PCIe 3.0 x16或4.0 x16的延长线,带宽远高于Thunderbolt,性能损失极小。
成本相对较低只需购买延长线和外部供电设备,可能比 Thunderbolt 显卡盒便宜。
缺点
需要改造需要在服务器机箱上开孔或使用转接板来引出线缆,完全失去了便携性和热插拔能力。
供电复杂显卡需要独立供电,需要妥善处理外部电源。
稳定性挑战延长线质量参差不齐,可能带来信号稳定性和兼容性问题。
二、 PCIe扩展方案详细步骤(以方案二为例)
假设您的服务器有一个空余的PCIe x16插槽。
1、PCIe延长线:一条足够长的、带屏蔽的PCIe 3.0/4.0 x16延长线。质量至关重要,劣质线缆会导致无法识别设备或系统不稳定。
2、外置显卡:您打算使用的显卡(如 NVIDIA RTX A6000, Tesla系列,或消费级的RTX 4090等)。
3、显卡外部供电:
大功率电源(PSU)一个标准的ATX电源,功率需满足显卡需求(如750W/1000W以上)。
或 服务器电源转接板可以将冗余的服务器电源引出为标准PCIe 8-pin供电接口的转接板(这是更优雅的方案)。
4、安装平台/显卡盒:一个开放式的显卡支架或一个自己DIY的盒子,用于固定显卡和电源,保证通风散热。
5、螺丝刀、扎带等工具。
1、服务器端安装:
完全关闭服务器,拔掉所有电源线。
* 打开服务器机箱,将PCIe延长线的金手指端牢固地插入空闲的PCIe x16插槽中。
* 找到机箱上一个合适的位置(如PCIe挡板处)开孔,或将一个挡板取下,将延长线的线缆小心地引出机箱。
* 盖回服务器机箱盖,注意不要压到或挤压延长线。
2、外部组装:
* 将显卡安装到外部支架上。
* 将延长线的另一端(插槽端)连接到显卡上。
连接供电这是最关键也最危险的一步。
如果使用ATX电源将24-pin主板接口中的PS-ON(绿色线)与任意一根COM(黑色地线)用一根跳线短接,欺骗电源一直开启,然后将对应的PCIe 8-pin或12VHPWR供电线连接到显卡上。
如果使用服务器电源转接板按照说明书将转接板连接到服务器的冗余电源模块上,然后再将输出线连接到显卡。
* 确保所有连接牢固。
3、软件配置:
* 连接好所有线缆后,先开启外部显卡的供电电源,再启动服务器。
安装驱动
Linux根据你的发行版和显卡型号,安装NVIDIA或AMD的官方驱动,对于NVIDIA,通常需要先禁用系统自带的nouveau
驱动。
Windows Server直接下载NVIDIA/AMD的服务器版或工作室版驱动进行安装。
验证识别在设备管理器(Windows)或使用lspci | grep -i vga
(Linux)命令查看显卡是否被系统正确识别。
4、高级应用:GPU直通(Passthrough)
如果您想在ESXi、Proxmox VE、Xen等虚拟化平台中将这张外置显卡直通给某个虚拟机使用,还需要在BIOS和Hypervisor中进行额外配置
* 在服务器BIOS中开启VT-d (Intel) 或AMD-Vi (AMD) 功能。
* 在Hypervisor中配置IOMMU,将显卡及其音频设备隔离出来,然后分配给指定的虚拟机。
1、性能损失:即使是PCIe x16延长线,过长(>0.5米)也会带来微小的延迟和性能损失,但对于大多数应用来说可以接受,Thunderbolt方案的损失则更大。
2、供电问题:绝对不要尝试从服务器内部取电给外置显卡! 服务器电源是为内部组件设计的,没有为外部高性能显卡预留余量,强制取电极可能导致电源过载损坏甚至起火。必须使用独立的外部供电。
3、信号完整性:劣质延长线是万恶之源,会导致各种诡异问题,务必选择口碑好、带屏蔽的高质量延长线。
4、物理安全:外露的显卡、电源和线缆非常脆弱,需要放置在安全、稳定、通风良好的地方,避免意外触碰、短路或落入异物。
5、兼容性:并非所有主板和CPU都完美支持PCIe拆分和延长,可能会遇到无法识别设备的问题。
首选方案如果服务器内部有PCIe空位,强烈优先考虑将显卡直接安装到服务器内部,这是最稳定、性能最佳、成本最低的方案。
次选方案如果内部空间或插槽确实不足,使用高质量的PCIe延长线 + 独立外部供电是更可靠的选择。
最后考虑只有您的服务器恰好有Thunderbolt接口,且对性能损失不敏感时,才考虑购买Thunderbolt显卡扩展坞。
对于生产环境,外置显卡是一种妥协的解决方案,请务必做好充分的测试和稳定性验证后再投入正式使用。
文章摘自:https://idc.huochengrm.cn/fwq/15564.html
评论