
工作职责:
● 构建端到端训练流水线(Argo Workflows)
● 基于 Volcano 实现 gang、拓扑感知、抢占调度
● 优化 PyTorch 分布式训练性能(DDP)
任职资格:
必备技能
● 熟悉 Argo Workflows、Volcano
● 具备 PyTorch 分布式训练经验
● 理解 NCCL / UCX
● 熟练掌握 Kubernetes
加分技能
● 大规模分布式训练或自动驾驶训练经验