加入我们

大模型推理架构研发工程师(J95970)

申请职位
| 社会招聘 | 北京市,上海市,深圳市
发布时间:2026-05-01

工作职责:

-负责百度文心大模型的推理性能优化
-参与飞桨深度学习平台( PaddlePaddle)推理框架的设计、开发和业务支持
-负责深度学习框架的性能优化工作,包括但不限于功能模块在CPU/GPU上的深度优化工作
-负责深度学习推理框架前瞻技术的跟踪调研,实现技术创新突破
-参与深度学习框架的易用性优化工作,使开发者能够以更简单的方式实现各类任务,降低学习成本和开发成本
-负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化
-支持百度萝卜快跑、搜索等业务大模型的推理性能优化

任职要求:

-热爱编程,精通C++/Python,精通CUDA 编程
-具有独立开发能力,精通计算机体系结构,有汇编级别开发经验,对AI算法和主流框架有丰富的应用或开发经验
-了解FlashAttention、PagedAttention、MoE、Chunked Prefill 等大模型核心技术;
-了解常见的大模型量化算法(如AWQ、GPTQ、SmoothQuant 等)及量化算子的实现;
-了解大模型通信算子(如Allreduce 等)及计算通信 overlap 实现;
-有分离式部署(PD 分离)开发经验。
软素质:
-目标驱动,并有探索精神
-团队协作及沟通能力
-具备分析和解决问题的能力
-有极强的学习能力和知识迁移能力
具有以下条件者优先:
-精通PaddlePaddle、Pytorch、TensorFlow等主流开源框架,做过源码级优化移植等工作,有 vLLM、TGI、SGLang、TensorRT-LLM等大模型推理框架的使用或优化经验;