大模型推理引擎研发工程师(J97119)
  • 招聘类别:
  • 社会招聘
  • 工作性质:
  • 全职
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 1
  • 发布时间:
  • 2026-05-01
  • 截止时间:
  •  
  • 工作地点:
  • 北京市,上海市

工作职责:

-KV Cache 系统架构研发:负责推理引擎中 KV Cache 管理器的设计与开发(如 PagedAttention、RadixCache 机制),优化显存利用率
-分布式存储优化:结合存储领域经验,设计跨节点、多层级(HBM-Mem-SSD)的 KV Cache 卸载(Offloading)与交换系统
-高性能需求支撑:针对 RAG(检索增强生成)、长文本对话、多轮会话等业务场景,提供高性能的缓存复用与预取方案
-前沿技术跟踪:深度参与并优化社区主流推理框架(如 SGLang, vLLM, TensorRT-LLM, LightLLM),将最新的科研成果(如计算与传输重叠、KV 量化等)落地到生产环境
-性能瓶颈分析:解决推理过程中出现的显存碎片、数据污染、带宽瓶颈及精度下降等硬核问题


任职资格:

-存储领域深度:2~3 年及以上系统研发经验,精通内存管理、缓存淘汰算法或分布式存储系统(如 Redis 内部机制、Ceph、RocksDB 等)者优先
-推理引擎认知:熟悉至少一种主流 AI 推理框架的底层源码,深刻理解 PagedAttention、Continuous Batching、CUDA Graph 等核心技术
-底层功底扎实:精通 C++/Python,具备优秀的并行计算基础,熟悉 Linux 内核内存管理或 CUDA 编程者显著加分。
-算子与精度理解:了解 KV Cache 量化技术(如 FP8, INT4, Group-wise Quantization)及其对显存压力和模型精度的平衡者优先
-社区参与度:在 vLLM, SGLang, FlashInfer 等开源社区有贡献记录(Contribute/PR)者优先

©2026  百度昆仑芯定制网申   京ICP备05051632号-16 京公网安备 11010802032024号隐私政策 Powered by