|
|
| |
| |
职位描述 用小程序查看更多 |
|
职责 1.负责跨地域大规模分布式AI平台的设计和开发,统筹优化跨地区的数据中心算力资源 2.多类型计算任务和异构资源的抽象和API设计,优化和适配分布式资源管理和调度系统包括kubernetes,slurm等 3.分析和解决分布式系统的可用性,性能,规模,容错以及安全挑战 任职要求 1.博士学历以上,计算机或电子信息相关专业 2.2年以上企业级软件研发经验包括软件项目的设计,开发,维护,能交付高质量可维护的软件 3.有丰富的Golang开发经验,熟悉存储,缓存,通信等常用中间件,能进行深度的性能优化 4.熟悉网络编程,TCP/IP协议以及HTTP协议,熟悉常用的数据结构与算法 5.理解AI分布式训练,包括业务场景,计算特点以及对平台的技术挑战 6.具有kubernetes,slurm,openstack等集群管理系统或者大规模云服务的开发经验 7.【加分项】熟悉AI分布式训练技术栈者优先,tensorflow,pytorch,MPI,CUDA,Horovod,NCCL,kubeflow 8.具备较强的学习能力和责任心,良好的沟通协作能力 |
|
| |
|
|
| |
|