工作职责:
-推理引擎优化: 负责 AIGC(Diffusion、LLM)及 CV 模型的全链路推理加速。基于 TensorRT、ONNX Runtime 或 vLLM 进行深度定制,通过算子融合、显存优化等手段极致压缩端到端延迟
-高性能算子开发: 深入分析模型性能瓶颈(Profiling),针对 Transformer 架构中的 Attention 层、Norm 层等编写高性能 CUDA Kernel
-模型压缩落地: 负责模型量化(W4A16 / W8A8 / FP8)、剪枝、蒸馏技术的工程化落地,在保证业务精度的前提下显著降低资源消耗
-服务端架构: 基于 C++ 和 gRPC 构建高吞吐的推理服务(Serving),优化 Request Batching 策略和多卡/多机并行(Tensor Parallelism)调度
-异构计算适配: 负责国产化芯片(如华为昇腾)或边缘端设备的模型移植与性能调优
任职要求:
-计算机基础: 扎实的 C++ 和 Python 编程能力,熟悉计算机体系结构(Cache, Memory Hierarchy)
-加速工具: 精通 TensorRT、ONNXRuntime、MNN、NCNN 等推理框架中的一种,有 Custom Plugin 开发经验
-大模型经验: 熟悉 Transformer 结构,了解 FlashAttention、PagedAttention 等加速原理,有 vLLM/TensorRT-LLM 使用或源码阅读经验者优先
-底层编程: 熟悉 CUDA 编程模型,具备手写 Kernel 及使用 Nsight Systems/Compute 进行性能调优的能力
-有模型训练经验者优先
