百度昆仑芯定制网申网申系统--招聘详细

搜索算法研发实习生（生成式排序）(J98597)

招聘类别：
实习生招聘
工作性质：
实习
薪资范围：
面议
招聘人数：
4

发布时间：
2026-05-01
截止时间：

工作地点：
北京市

工作职责：

- 利用大模型SFT、RL等技术进行用户意图识别、Query改写、文本生成、工具调用、多Agent协作等相关工作，推动Agent技术落地百度搜索业务
- 基于Agentic RL（如GRPO、DAPO算法）构建用户行为预估模型，结合LLM微调技术（SFT+DPO两阶段微调），优化多模态内容Listwise排序策略，精准匹配用户长短期需求。
- 负责用户搜索行为预估，重点关注点击（CTR）、时长（Dwell Time）等预估优化，基于用户交互数据迭代模型，提升用户消费满意度。
- 结合业务场景落地用户行为预估方案，使用PyTorch搭建模型训练框架，完成数据验证、离线A/B测试、指标复盘，持续迭代优化模型效果。

任职资格：

1. 基础要求
- 在读硕士/博士（计算机、AI、数学等相关专业），每周实习≥4天，周期≥3个月，长期实习者优先。
- 熟练使用Python（掌握C++加分），熟悉PyTorch/TensorFlow，具备扎实编码与工程实践能力。
- 开朗积极，具备良好沟通协作、学习能力与逻辑思维，善于主动解决问题。

2. 核心技能（满足1-2项即可）
- 有机器学习、数据挖掘、NLP等任一领域理论与实践经验，熟悉用户行为建模（CTR/DTR预估）、多任务学习、因果推断者优先。
- 深度了解RAG、Function-Call、Muiti-turn Search、RL等技术方向，有端到端Deepresearch训练经验者优先
- 掌握Agent通用开发架构，例如LangGraph、LangChain、AutoGen、CrewAI等AI Agent开发框架
- 了解Agentic RL相关理论，熟悉MDP建模、策略梯度，有GRPO/PPO等强化学习算法实现、Agent开发或轨迹数据处理经验。
- 掌握LLM微调技术（SFT、DPO），熟悉Transformer架构，有使用TRL/OpenRLHF框架微调经验，能处理多模态数据者加分。
- 熟悉Gym/RLlib/Tianshou等强化学习框架，或有搜索排序、用户行为预估相关项目经验，能独立完成算法实验与调试者优先。

现在申请

返回职位列表

热招职位更多 >>

长招职位更多 >>