工作职责:
-KV Cache 系统架构研发:负责推理引擎中 KV Cache 管理器的设计与开发(如 PagedAttention、RadixCache 机制),优化显存利用率
-分布式存储优化:结合存储领域经验,设计跨节点、多层级(HBM-Mem-SSD)的 KV Cache 卸载(Offloading)与交换系统
-高性能需求支撑:针对 RAG(检索增强生成)、长文本对话、多轮会话等业务场景,提供高性能的缓存复用与预取方案
-前沿技术跟踪:深度参与并优化社区主流推理框架(如 SGLang, vLLM, TensorRT-LLM, LightLLM),将最新的科研成果(如计算与传输重叠、KV 量化等)落地到生产环境
-性能瓶颈分析:解决推理过程中出现的显存碎片、数据污染、带宽瓶颈及精度下降等硬核问题
任职要求:
-存储领域深度:2~3 年及以上系统研发经验,精通内存管理、缓存淘汰算法或分布式存储系统(如 Redis 内部机制、Ceph、RocksDB 等)者优先
-推理引擎认知:熟悉至少一种主流 AI 推理框架的底层源码,深刻理解 PagedAttention、Continuous Batching、CUDA Graph 等核心技术
-底层功底扎实:精通 C++/Python,具备优秀的并行计算基础,熟悉 Linux 内核内存管理或 CUDA 编程者显著加分。
-算子与精度理解:了解 KV Cache 量化技术(如 FP8, INT4, Group-wise Quantization)及其对显存压力和模型精度的平衡者优先
-社区参与度:在 vLLM, SGLang, FlashInfer 等开源社区有贡献记录(Contribute/PR)者优先
