百度昆仑芯定制网申网申系统--招聘详细

大模型推理引擎研发工程师(J97119)

招聘类别：
社会招聘
工作性质：
全职
薪资范围：
面议
招聘人数：
1

发布时间：
2026-05-01
截止时间：

工作地点：
北京市,上海市

工作职责：

-KV Cache 系统架构研发：负责推理引擎中 KV Cache 管理器的设计与开发（如 PagedAttention、RadixCache 机制），优化显存利用率
-分布式存储优化：结合存储领域经验，设计跨节点、多层级（HBM-Mem-SSD）的 KV Cache 卸载（Offloading）与交换系统
-高性能需求支撑：针对 RAG（检索增强生成）、长文本对话、多轮会话等业务场景，提供高性能的缓存复用与预取方案
-前沿技术跟踪：深度参与并优化社区主流推理框架（如 SGLang, vLLM, TensorRT-LLM, LightLLM），将最新的科研成果（如计算与传输重叠、KV 量化等）落地到生产环境
-性能瓶颈分析：解决推理过程中出现的显存碎片、数据污染、带宽瓶颈及精度下降等硬核问题

任职资格：

-存储领域深度：2~3 年及以上系统研发经验，精通内存管理、缓存淘汰算法或分布式存储系统（如 Redis 内部机制、Ceph、RocksDB 等）者优先
-推理引擎认知：熟悉至少一种主流 AI 推理框架的底层源码，深刻理解 PagedAttention、Continuous Batching、CUDA Graph 等核心技术
-底层功底扎实：精通 C++/Python，具备优秀的并行计算基础，熟悉 Linux 内核内存管理或 CUDA 编程者显著加分。
-算子与精度理解：了解 KV Cache 量化技术（如 FP8, INT4, Group-wise Quantization）及其对显存压力和模型精度的平衡者优先
-社区参与度：在 vLLM, SGLang, FlashInfer 等开源社区有贡献记录（Contribute/PR）者优先

现在申请

返回职位列表

热招职位更多 >>

长招职位更多 >>