百度昆仑芯定制网申网申系统--招聘详细

Summer Camp - Agentic RL 算法实习生(J98028)

招聘类别：
实习生招聘
工作性质：
实习
薪资范围：
面议
招聘人数：
3

发布时间：
2026-05-18
截止时间：

工作地点：
北京市

工作职责：

-团队or业务/亮点介绍：支撑千帆MAAS平台业务，我们深度服务代码、多轮对话、办公等高价值行业的真实 agent 场景，能接触到市面上最复杂、最多样的多步骤任务数据。我们在这里不做玩具实验——每一个模型迭代都直接对齐真实业务效果，每一次 RL 训练都有真实用户反馈闭环。我们一起帮客户做得更快、更好
-负责面向真实 agent 场景的强化学习训练体系搭建，包括环境构建、奖励设计、rollout 采样与模型训练全流程
-研究并落地 GRPO、PPO 等 RL 算法在长链路、多工具 agent 任务上的适配与优化
-设计 process reward model（PRM）与 outcome reward model（ORM），提升稀疏奖励场景下的训练稳定性
-与业务团队协作，将真实用户 agent 使用数据转化为高质量训练信号，构建持续改进的数据飞轮
-建立 agent 能力评估体系，持续跟踪与分析模型迭代效果，推动模型上线落地

任职资格：

-教育背景：计算机、人工智能、数学等相关专业硕士及以上学历
-熟悉强化学习核心算法（PPO、GRPO、REINFORCE 等），有 RLHF 或 LLM post-training 实战经验者优先
- 理解 agentic 系统架构，熟悉 tool use、ReAct、function calling 等 agent 范式
-熟练掌握 PyTorch，有大规模分布式训练经验（DeepSpeed / FSDP 等）
-具备较强的实验设计与数据分析能力，能独立推进研究课题并产出高质量结论
-有顶会论文发表（NeurIPS / ICML / ICLR / ACL 等）或知名开源项目贡献者背景加分

现在申请

返回职位列表

热招职位更多 >>

长招职位更多 >>