
工作职责:
1. 负责AI Infra存储方向性能分析,探索模型训练/推理与存储系统的深度集成,优化大模型训练/推理性能。
2. 负责AI Infra GPU集群IO性能统计跟踪,数据缓存系统的研究优化工作。
3. 负责AI Infra GPU集群各服务压力承载能力建设,提高整体SLA水平的研究优化工作。
4. 负责持续跟进大模型训练推理前沿技术和开源方案,结合存储完成场景化分析,并落地存储产品,提升存储智能化竞争力。
任职资格:
1. 计算机科学、软件工程或相关领域的本科及以上学历,有AI工程优化经验;
2. 熟悉Linux操作系统,具备内核文件系统、IO子系统或网络协议栈;
3. 熟悉常见存储技术和协议,如POSIX、NFS、Ceph、S3等;
4. 熟悉分布式系统的核心概念(一致性、分片、复制、容错机制等)及相关技术(如Raft、Paxos);
5. 具备分布式系统的研发经验,有优化系统性能问题的能力和经验,具备以下一个或者多个条件者优先:
-有超大规模模型研发经验,涉及数据、训练、部署、评估等相关工作
-熟悉主要云厂商的AI Infra解决方案,有分布式计算和存储项目经验
-熟悉云存储技术及生态(如Juicefs、Alluxio、腾讯COS、火山TOS)