工作职责:
-大模型研发与优化:参与百亿级参数大语言模型(LLM)的架构设计、训练优化及推理加速,包括但不限于预训练、指令微调、RLHF等全流程开发,提升模型在复杂推理、知识整合、代码生成、多轮对话等场景的性能表现
-强化学习深度融合:创新性地将强化学习(如PPO/GRPO、多智能体RL等)与大模型结合,设计并实现对话策略优化、内容生成质量提升、模型自我迭代等解决方案,推动大模型在开放域对话、代码生成、决策推理等场景的突破
-算法创新与实验验证:主导关键算法模块的研发(如奖励模型设计、探索策略优化、离线强化学习、agent-rl等),构建高并发分布式训练与评估系统
-跨团队协作与落地:与数据团队、工程团队、产品团队深度协作,推动大模型+强化学习技术在代码生成、内容创作、智能体决策等业务场景的落地应用
-学术前沿追踪与输出:跟踪ICLR、NeurIPS、ACL等顶会前沿动态。发表高水平论文,构建技术影响力
任职要求:
-学术基础扎实:掌握Transformer架构、注意力机制等大模型底层原理,熟悉GPT、qwen,ds等主流模型;了解PPO、GRPO等强化学习算法,有相关课程设计或实验室项目经验
-工具上手快:熟练使用PyTorch/Paddle等深度学习框架,了解分布式训练、模型量化等基础技术,有代码实现能力
-软性能力突出:具备良好的逻辑思维能力、英文文献阅读能力和团队协作精神,擅长将复杂问题拆解为可执行的步骤
-加分项:有AI竞赛获奖经历、参与过开源项目、在学术会议发表过论文,或熟悉对话系统、代码生成等技术者优先
