职位描述 1、负责研发图像生成、视频生成等多模态生成大模型,提升生成内容的质量和多样性,利用生成模型进行数据标注和数据增强: 2、开发适用于机器人端到端操作的多模态生成模型; 3、设计和优化机器人视频表征学习方法,提取有效的时空特征表示,提升机器人视觉空间推理能力; 4、研究机器人现实世界强化学习路线; 5、跟踪多模态生成领域的最新研究进展,推动技术创新和应用落地。
职位要求 1、具有计算机视觉、人工智能、机器人学等相关专业背景或相关行业工作经验; 2、熟练掌握主流深度学习框架,PyTorch、TensorFlow,并具备优秀的编程能力; 3、对主流生成模型(如Diffusion、GAN、Flow等)有深入理解,熟悉相关评测方法; 4、熟悉机器人视频表征学习方法,能够从视频数据中提取有效的特征表示; 5、了解机器人端到端操作模型(如ACT、Diffusion Policy、OpenVLA、pio等),及视觉-语言-导航大模型等的前沿进展 6、了解机器人强化学习技术,有真机环境下的实施和优化经验; 7、具备分布式训练经验,能够处理大规模数据和模型; 8、AC M等程序设计比赛、自然语言 |
|