昆仑芯官方招聘

工作职责:

-推理引擎优化：负责 AIGC（Diffusion、LLM）及 CV 模型的全链路推理加速。基于 TensorRT、ONNX Runtime 或 vLLM 进行深度定制，通过算子融合、显存优化等手段极致压缩端到端延迟
-高性能算子开发：深入分析模型性能瓶颈（Profiling），针对 Transformer 架构中的 Attention 层、Norm 层等编写高性能 CUDA Kernel
-模型压缩落地：负责模型量化（W4A16 / W8A8 / FP8）、剪枝、蒸馏技术的工程化落地，在保证业务精度的前提下显著降低资源消耗
-服务端架构：基于 C++ 和 gRPC 构建高吞吐的推理服务（Serving），优化 Request Batching 策略和多卡/多机并行（Tensor Parallelism）调度
-异构计算适配：负责国产化芯片（如华为昇腾）或边缘端设备的模型移植与性能调优

任职要求:

-计算机基础：扎实的 C++ 和 Python 编程能力，熟悉计算机体系结构（Cache, Memory Hierarchy）
-加速工具：精通 TensorRT、ONNXRuntime、MNN、NCNN 等推理框架中的一种，有 Custom Plugin 开发经验
-大模型经验：熟悉 Transformer 结构，了解 FlashAttention、PagedAttention 等加速原理，有 vLLM/TensorRT-LLM 使用或源码阅读经验者优先
-底层编程：熟悉 CUDA 编程模型，具备手写 Kernel 及使用 Nsight Systems/Compute 进行性能调优的能力
-有模型训练经验者优先

加入我们

模型加速与部署工程师(J97446)

工作职责:

任职要求: