|
|
| |
| |
职位描述 用小程序查看更多 |
|
职责 1.负责跨地域大规模分布式AI平台的设计和开发,统筹优化跨地区的数据中心算力资源; 2.多类型计算任务和异构资源的抽象和API设计,优化和适配分布式资源管理和调度系统包括kubernetes,slurm等; 3.分析和解决分布式系统的可用性,性能,规模,容错以及安全挑战。 任职要求 1.博士学历,计算机或电子信息相关专业; 2.有丰富的Golang开发经验,熟悉存储,缓存,通信等常用中间件,能进行深度的性能优化; 3.熟悉网络编程,TCP/IP协议以及HTTP协议,熟悉常用的数据结构与算法; 4.理解AI分布式训练,包括业务场景,计算特点以及对平台的技术挑战; 5.具有kubernetes,slurm,openstack等集群管理系统或者大规模云服务的开发经验; 6.【加分项】熟悉AI分布式训练技术栈者优先,tensorflow,pytorch,MPI,CUDA,Horovod,NCCL,kubeflow; 7.具备较强的学习能力和责任心,良好的沟通协作能力。 |
|
| |
|
|
| |
|