昆仑芯官方招聘

工作职责:

-算法研发与迭代：负责强化学习算法（包括但不限于 PPO, SAC, TD3, Offline RL 等）的研究、实现与调优，推动技术在实际场景中的应用
-奖励模型设计：基于业务需求，设计合理的 Reward Function 和 Observation 空间等
-策略优化与评测：针对复杂决策问题进行策略建模，通过大规模并行训练提升智能体性能，并建立完善的算法评估体系
-前沿技术追踪：跟踪 RL 领域的最新研究动向（如 NeurIPS, ICML, ICLR 论文），验证并复现前沿算法，保持团队技术的领先性
-数据分析与挖掘：分析训练过程中的数据分布与瓶颈，解决探索（Exploration）与利用（Exploitation）的平衡问题

任职要求:

-计算机、数学或相关专业在读研究生及以上；具有扎实的数学基础，熟悉概率统计、最优化理论
-熟悉 Python 编程，熟练使用至少一种深度学习框架（如 PyTorch, TensorFlow 或 JAX），具备良好的工程习惯
-深入理解强化学习基本原理，有实际的项目或实验经验；熟悉 Ray/Rllib, Stable Baselines3 等常用强化学习库者优先
-具备较强的逻辑分析能力和独立解决问题的能力；对新技术充满好奇心，能够顺畅阅读英文文献
-加分项：在顶会（NeurIPS, ICML, ICLR 等）发表过论文；有大规模分布式训练或高性能计算经验

加入我们

强化学习算法/框架实习生(J97791)

工作职责:

任职要求: