工作职责:
-负责千帆MaaS平台级推理降本与效率优化策略设计与落地,并支持定制化推理性能优化
-负责量化、投机推理(MTP / speculative decoding / Eagle)等训练–推理协同优化方案的设计与落地
-负责建设大模型推理性能评测与收益评估体系
-前沿技术落地:调研并落地大模型推理多维度优化技术,包括但不限于模型量化(INT4/INT8/FP8,含PTQ/QAT两种方式)、MTP投机推理优化、结构化剪枝与稀疏化等,持续提升推理效率与资源利用率,降低部署成本。
任职要求:
-教育背景: 计算机、人工智能等相关专业本科及以上学历。
-编程功底: 熟练掌握 Python、 PyTorch,具备扎实的数据结构与算法基础,具备良好的工程实现能力。
-大模型经验:熟悉 Transformer 模型结构与推理流程(prefill / decode / KV cache / attention),理解推理性能瓶颈及其与训练策略(量化、蒸馏、MTP)的关联
-加分项
-参与过 vLLM / SGLang / TensorRT-LLM 等推理系统优化
-有量化感知训练(QAT)或 MTP 训练 实践经验
-熟悉 EAGLE / Medusa / MTP variants(如DeepSeek MTP、MiMo MTP) 等投机推理或高效推理方案
-有大规模线上推理服务优化经验
