
工作职责:
● 负责超算集群装机、运维及生命周期管理
● 固件 / 驱动调优(H20/H200 GPU + mlx5_core NIC)
● 并行文件系统运维与优化
● NCCL/UCX Profiling 与性能调试
● 参与 24×7 值班及 P1 故障响应
任职资格:
必备技能
● 熟悉 Linux 内核 / 网络调优
● 具备 GPU / InfiniBand / RDMA 相关经验
● 掌握 IaC 工具(Terraform / Ansible)
● 性能 Profiling 能力
加分技能
● H200 / H20 GPU 性能调优经验