
工作职责:
1、负责公司机器学习平台架构的设计开发,以及系统性能调优;
2、负责解决系统高并发、高可靠性、高可扩展性等技术难关;
3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等;
4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地;
5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
任职资格:
1、熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言;
2、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
3、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
5、熟悉argo、volcano、kubeflow等开源项目,并有实际开发经验。
加分项:
1、熟悉 Kubernetes 架构,有丰富的云原生系统开发经验;
2、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch / MXNet);
3、有万卡集群管理经验;
4、有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),Machine Learning Frameworks,ML for System,Distributed Storage;
5、有大规模云计算平台或私有云产品架构开发经验。