相城 IDC · AI 训练集群上架(48 台 GPU 节点)
分类:IDC · 时间:2025-10-06 15:00:48
背景
AI 训练集群搬迁,需一周完成机柜部署与双平面 IB 网络连通。
方案
- 结构:8 列机柜,Top-of-Rack IB 交换 + 万兆上联
- 编号:机柜/设备/跳线全链路编号与贴签
步骤
- IB 光纤布线(A/B 平面),每根记录来源/去向/端口
- GPU 节点 BIOS/固件一致性校验
- PXE 批量装机 + ansible 初始化
结果
- 训练集群 QPS 提升 32%;节点宕机率下降 90%
- 提交端口对照/走线图/复测记录,验收一次通过
← 返回案例列表