昆仑芯官方招聘

工作职责:

-KV Cache 系统架构研发：负责推理引擎中 KV Cache 管理器的设计与开发（如 PagedAttention、RadixCache 机制），优化显存利用率
-分布式存储优化：结合存储领域经验，设计跨节点、多层级（HBM-Mem-SSD）的 KV Cache 卸载（Offloading）与交换系统
-高性能需求支撑：针对 RAG（检索增强生成）、长文本对话、多轮会话等业务场景，提供高性能的缓存复用与预取方案
-前沿技术跟踪：深度参与并优化社区主流推理框架（如 SGLang, vLLM, TensorRT-LLM, LightLLM），将最新的科研成果（如计算与传输重叠、KV 量化等）落地到生产环境
-性能瓶颈分析：解决推理过程中出现的显存碎片、数据污染、带宽瓶颈及精度下降等硬核问题

任职要求:

-存储领域深度：2~3 年及以上系统研发经验，精通内存管理、缓存淘汰算法或分布式存储系统（如 Redis 内部机制、Ceph、RocksDB 等）者优先
-推理引擎认知：熟悉至少一种主流 AI 推理框架的底层源码，深刻理解 PagedAttention、Continuous Batching、CUDA Graph 等核心技术
-底层功底扎实：精通 C++/Python，具备优秀的并行计算基础，熟悉 Linux 内核内存管理或 CUDA 编程者显著加分。
-算子与精度理解：了解 KV Cache 量化技术（如 FP8, INT4, Group-wise Quantization）及其对显存压力和模型精度的平衡者优先
-社区参与度：在 vLLM, SGLang, FlashInfer 等开源社区有贡献记录（Contribute/PR）者优先

加入我们

大模型推理引擎研发工程师(J97119)

工作职责:

任职要求: