|
|
| |
| |
职位描述 用小程序查看更多 |
|
岗位职责: 1.协助开展VLA模型强化学习训练,参与RLHF流程搭建,包括奖励模型优化、策略微调等核心环节。 2.配合整理对齐数据集,优化强化学习训练链路,提升模型指令理解与输出一致性。 3.跟踪强化学习与大模型融合的前沿技术,完成小型技术调研与实验验证,输出简要分析报告。 4.协助优化模型训练效率,参与实验数据记录、效果复盘,支撑算法迭代优化。
任职要求 1.在读硕士及以上学历(计算机、AI、自动化等相关专业),每周可实习3天以上,实习期不少于3个月。 2.精通Python,熟练掌握PyTorch框架,具备扎实的强化学习与神经网络基础,了解VLA核心原理。 3.熟悉PPO,GRPO,有VLA模型微调或强化学习项目经验者优先。 4.具备良好的数学基础与逻辑思维,能独立推进简单实验,有较强的问题解决能力。 |
|
| |
|
|
| |
|