Summer Camp - Agentic RL 算法实习生(J98028)
  • 招聘类别:
  • 实习生招聘
  • 工作性质:
  • 实习
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 3
  • 发布时间:
  • 2026-05-18
  • 截止时间:
  •  
  • 工作地点:
  • 北京市

工作职责:

-团队or业务/亮点介绍:支撑千帆MAAS平台业务,我们深度服务代码、多轮对话、办公等高价值行业的真实 agent 场景,能接触到市面上最复杂、最多样的多步骤任务数据。我们在这里不做玩具实验——每一个模型迭代都直接对齐真实业务效果,每一次 RL 训练都有真实用户反馈闭环。我们一起帮客户做得更快、更好
-负责面向真实 agent 场景的强化学习训练体系搭建,包括环境构建、奖励设计、rollout 采样与模型训练全流程
-研究并落地 GRPO、PPO 等 RL 算法在长链路、多工具 agent 任务上的适配与优化
-设计 process reward model(PRM)与 outcome reward model(ORM),提升稀疏奖励场景下的训练稳定性
-与业务团队协作,将真实用户 agent 使用数据转化为高质量训练信号,构建持续改进的数据飞轮
-建立 agent 能力评估体系,持续跟踪与分析模型迭代效果,推动模型上线落地


任职资格:

-教育背景: 计算机、人工智能、数学等相关专业硕士及以上学历
-熟悉强化学习核心算法(PPO、GRPO、REINFORCE 等),有 RLHF 或 LLM post-training 实战经验者优先
- 理解 agentic 系统架构,熟悉 tool use、ReAct、function calling 等 agent 范式
-熟练掌握 PyTorch,有大规模分布式训练经验(DeepSpeed / FSDP 等)
-具备较强的实验设计与数据分析能力,能独立推进研究课题并产出高质量结论
-有顶会论文发表(NeurIPS / ICML / ICLR / ACL 等)或知名开源项目贡献者背景加分

©2026  百度昆仑芯定制网申   京ICP备05051632号-16 京公网安备 11010802032024号隐私政策 Powered by