加入我们

强化学习算法/框架实习生(J97791)

申请职位
| 实习生招聘 | 北京市
发布时间:2026-05-01

工作职责:

-算法研发与迭代:负责强化学习算法(包括但不限于 PPO, SAC, TD3, Offline RL 等)的研究、实现与调优,推动技术在实际场景中的应用
-奖励模型设计:基于业务需求,设计合理的 Reward Function 和 Observation 空间等
-策略优化与评测:针对复杂决策问题进行策略建模,通过大规模并行训练提升智能体性能,并建立完善的算法评估体系
-前沿技术追踪:跟踪 RL 领域的最新研究动向(如 NeurIPS, ICML, ICLR 论文),验证并复现前沿算法,保持团队技术的领先性
-数据分析与挖掘:分析训练过程中的数据分布与瓶颈,解决探索(Exploration)与利用(Exploitation)的平衡问题

任职要求:

-计算机、数学或相关专业在读研究生及以上;具有扎实的数学基础,熟悉概率统计、最优化理论
-熟悉 Python 编程,熟练使用至少一种深度学习框架(如 PyTorch, TensorFlow 或 JAX),具备良好的工程习惯
-深入理解强化学习基本原理,有实际的项目或实验经验;熟悉 Ray/Rllib, Stable Baselines3 等常用强化学习库者优先
-具备较强的逻辑分析能力和独立解决问题的能力;对新技术充满好奇心,能够顺畅阅读英文文献
-加分项:在顶会(NeurIPS, ICML, ICLR 等)发表过论文;有大规模分布式训练或高性能计算经验