搜索算法研发实习生(生成式排序)(J98597)
  • 招聘类别:
  • 实习生招聘
  • 工作性质:
  • 实习
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 4
  • 发布时间:
  • 2026-05-01
  • 截止时间:
  •  
  • 工作地点:
  • 北京市

工作职责:

- 利用大模型SFT、RL等技术进行用户意图识别、Query改写、文本生成、工具调用、多Agent协作等相关工作,推动Agent技术落地百度搜索业务
- 基于Agentic RL(如GRPO、DAPO算法)构建用户行为预估模型,结合LLM微调技术(SFT+DPO两阶段微调),优化多模态内容Listwise排序策略,精准匹配用户长短期需求。
- 负责用户搜索行为预估,重点关注点击(CTR)、时长(Dwell Time)等预估优化,基于用户交互数据迭代模型,提升用户消费满意度。
- 结合业务场景落地用户行为预估方案,使用PyTorch搭建模型训练框架,完成数据验证、离线A/B测试、指标复盘,持续迭代优化模型效果。


任职资格:

1. 基础要求
- 在读硕士/博士(计算机、AI、数学等相关专业),每周实习≥4天,周期≥3个月,长期实习者优先。
- 熟练使用Python(掌握C++加分),熟悉PyTorch/TensorFlow,具备扎实编码与工程实践能力。
- 开朗积极,具备良好沟通协作、学习能力与逻辑思维,善于主动解决问题。

2. 核心技能(满足1-2项即可)
- 有机器学习、数据挖掘、NLP等任一领域理论与实践经验,熟悉用户行为建模(CTR/DTR预估)、多任务学习、因果推断者优先。
- 深度了解RAG、Function-Call、Muiti-turn Search、RL等技术方向,有端到端Deepresearch训练经验者优先
- 掌握Agent通用开发架构,例如LangGraph、LangChain、AutoGen、CrewAI等AI Agent开发框架
- 了解Agentic RL相关理论,熟悉MDP建模、策略梯度,有GRPO/PPO等强化学习算法实现、Agent开发或轨迹数据处理经验。
- 掌握LLM微调技术(SFT、DPO),熟悉Transformer架构,有使用TRL/OpenRLHF框架微调经验,能处理多模态数据者加分。
- 熟悉Gym/RLlib/Tianshou等强化学习框架,或有搜索排序、用户行为预估相关项目经验,能独立完成算法实验与调试者优先。

©2026  百度昆仑芯定制网申   京ICP备05051632号-16 京公网安备 11010802032024号隐私政策 Powered by