昆仑芯官方招聘

工作职责:

-训练环境构建：参与搭建基于 MCTS（蒙特卡洛树搜索）与 LLM 交互的采样环境，实现大规模逻辑路径的自动化生成
-奖励模型迭代：开发并训练过程奖励模型（PRM），探索如何对思维链中的每一个“推理步”进行精准评分
-策略优化实验：负责 PPO、GRPO 或 DPO 等强化学习算法在逻辑推理任务中的调优，解决模型在自对弈过程中的“奖励作弊（Reward Hacking）”问题
-前沿论文复现：跟踪并复现 NeurIPS、ICLR 等顶级会议中关于 Reasoning + RL 的最新算法，验证其在实际业务场景中的潜力

任职要求:

-教育背景：计算机、数学、统计学或自动化相关专业，本科及以上
-理论功底：熟悉马尔可夫决策过程（MDP）、策略梯度（Policy Gradient）等 RL 核心概念；对 Transformer 架构及预调优（SFT/RLHF）有深刻理解
-工程能力：精通 Python，熟练使用 PyTorch。有 DeepSpeed、Ray 或 Megatron 等大规模分布式训练经验者优先
-数学能力：具备极强的逻辑思维能力，对组合数学、数论或算法竞赛（ACM/ICPC/蓝桥杯）有经验者优先

加分项
-在人工智能顶级学术会议（CVPR, NLP, ICML, NeurIPS 等）发表过论文
-有参与过开源强化学习训练框架（如 VeRL, Slime）贡献的经历
-能够从第一性原理出发思考问题，对“机器如何产生意识与逻辑”充满好奇

加入我们

Summer Camp - 强化学习与大模型推理算法实习生(J97861)

工作职责:

任职要求: