百度昆仑芯定制网申网申系统--招聘详细

北京-强化学习架构研发工程师(J86773)

招聘类别：
校园招聘
工作性质：
全职
薪资范围：
面议
招聘人数：
5

发布时间：
2026-05-01
截止时间：

工作地点：
北京市

工作职责：

-负责大模型Post-training（文本、多模态）的算法研发工作
-创新大模型后训练算法（包括SFT/RLHF/RM等方向），研究大模型对齐人类偏好前瞻技术和趋势
-构建高质量RLHF训练集和评估方式，深入大模型能力分析，制定系统性高效优化方案；
-负责大规模分布式RL 训练框架开发优化，提升训练和推理效率；

任职资格：

任职资格
-硕士以上学习，具备自然语言处理/计算机视觉视觉的理论背景和实践经验，在AI顶会发表LLM相关论文者优先；
-深入理解大模型后训练相关技术并有一定实践经验，包括SFT/RLHF/RAILF/RM等，有强化学习相关工作经验者优先；
-熟练掌握Python编程语言以及Pytorch、Tensorflow、PaddlePaddle等其中一项深度学习开发框架，有OpenRL、Verl等开源RL框架使用经验者优先
-有较强的学术比赛经验或者在知名数据集的 Leaderboard 上排名靠前优先；
-有较强的代码能力，有高质量的中大型项目或个人开源项目的经验优先；

现在申请

返回职位列表

热招职位更多 >>

长招职位更多 >>