工作职责:
-训练环境构建:参与搭建基于 MCTS(蒙特卡洛树搜索)与 LLM 交互的采样环境,实现大规模逻辑路径的自动化生成
-奖励模型迭代:开发并训练过程奖励模型(PRM),探索如何对思维链中的每一个“推理步”进行精准评分
-策略优化实验:负责 PPO、GRPO 或 DPO 等强化学习算法在逻辑推理任务中的调优,解决模型在自对弈过程中的“奖励作弊(Reward Hacking)”问题
-前沿论文复现:跟踪并复现 NeurIPS、ICLR 等顶级会议中关于 Reasoning + RL 的最新算法,验证其在实际业务场景中的潜力
任职要求:
-教育背景:计算机、数学、统计学或自动化相关专业,本科及以上
-理论功底:熟悉马尔可夫决策过程(MDP)、策略梯度(Policy Gradient)等 RL 核心概念;对 Transformer 架构及预调优(SFT/RLHF)有深刻理解
-工程能力:精通 Python,熟练使用 PyTorch。有 DeepSpeed、Ray 或 Megatron 等大规模分布式训练经验者优先
-数学能力:具备极强的逻辑思维能力,对组合数学、数论或算法竞赛(ACM/ICPC/蓝桥杯)有经验者优先
加分项
-在人工智能顶级学术会议(CVPR, NLP, ICML, NeurIPS 等)发表过论文
-有参与过开源 强化学习训练框架(如 VeRL, Slime)贡献的经历
-能够从第一性原理出发思考问题,对“机器如何产生意识与逻辑”充满好奇
