星外工多多 [切换] 客服微信  收藏  消息  免费找工作 | 企业免费招人 | 雇主免费招人   登陆/注册  
 
   
 请输入关键词:
 
所有操作  
   星外工多多:  交流群  
   我的工多多(企业招人) >
   企业信息页     >
   发布正规职位    >
   查找人才      >
   关注的人才     >
   企业认证      >
   充值财务      >
   切换角色      >
 
   
  大模型实习生(VLA强化学习)  点击:12次
工作编号:1821842
7000-11000/月
深圳市优必选科技股份有限公司 查看企业资料及职位 2026-2-10 
深圳市-南山区  无经验 | 博士研究生 | 招2人 | 实习
  工作地址
(深圳市南山区南山智园C1栋22楼) 用小程序查   用百度查

  职位描述  用小程序查看更多
岗位职责:
1.协助开展VLA模型强化学习训练,参与RLHF流程搭建,包括奖励模型优化、策略微调等核心环节。
2.配合整理对齐数据集,优化强化学习训练链路,提升模型指令理解与输出一致性。
3.跟踪强化学习与大模型融合的前沿技术,完成小型技术调研与实验验证,输出简要分析报告。
4.协助优化模型训练效率,参与实验数据记录、效果复盘,支撑算法迭代优化。

任职要求
1.在读硕士及以上学历(计算机、AI、自动化等相关专业),每周可实习3天以上,实习期不少于3个月。
2.精通Python,熟练掌握PyTorch框架,具备扎实的强化学习与神经网络基础,了解VLA核心原理。
3.熟悉PPO,GRPO,有VLA模型微调或强化学习项目经验者优先。
4.具备良好的数学基础与逻辑思维,能独立推进简单实验,有较强的问题解决能力。


 

  职位照片
尚未上传照片。

  联系办法
    
 

  马上投简历  收藏   复制网址  投诉下架

  深圳市优必选科技股份有限公司 查看企业资料及职位**(已实名) 查看个人雇主资料及职位

  谁看过此职位
  只显示非匿名用户
 
 
欢迎您的到来!星外工多多,让天下没有难找的工作!
微信交流群 [星外工多多] 全功能服务号 [星外工多多] 客服
《用户服务协议》 《隐私政策》  投诉与举报  关于我们  更新历史  小程序/APP下载  投诉电话:

广州市星外信息科技有限公司 保留所有权利 注册商标 人力资源许可证 增值电信经营许可证:粤B2-20251456 粤ICP备05000912号-2