工作职责:
1、负责公司机器学习平台架构的设计开发,以及系统性能调优;
2、负责解决系统高并发、高可靠性、高可扩展性等技术开发;
3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等;
4、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
任职资格:
1、熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言;
2、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
3、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
5、熟悉argo、volcano、kubeflow等开源项目,并有实际开发经验。