|
|
| |
| |
职位描述 用小程序查看更多 |
|
1、负责大规模分布式训练和推理基础架构的设计、开发和优化,支持千卡级别的大规模模型训练; 2、优化长序列处理和超大模型的训练效率,解决训练中的性能瓶颈问题; 3、开发和优化高效的网络通信策略、自定义算子,并实现多样化的模型并行技术; 4、设计和实现高效的模型量化、推理加速和部署方案; 5、构建和维护海量多模态数据的分布式、流式处理管道; 6、设计和实现大模型加密保护机制,确保模型知识产权安全; 7、开发稳定可靠的训练断点恢复系统,提高大规模训练的容错能力; 8、跟踪最新的模型训练和推理技术发展,并将其应用于实际生产环境。 |
|
| |
|
|
| |
|