工作职责:
-团队or业务/亮点介绍:支撑千帆MAAS平台业务,团队具备行业领先的训练–推理协同优化能力,构建了从模型训练、量化优化、投机推理到平台级调度与线上流量验证的闭环优化体系,实现大模型推理成本与效率的持续突破
-负责千帆MaaS平台级推理降本与效率优化策略设计与落地
-负责量化、投机推理(MTP / speculative decoding / Eagle / DFlash)等训练–推理协同优化方案的设计与落地
-前沿技术落地及创新:调研并落地大模型推理多维度优化技术,包括但不限于模型量化(INT4/INT8/FP8,含PTQ/QAT两种方式)、投机推理优化、结构化剪枝与稀疏化等;基于已有的推理方案提出创新性的改进,持续提升推理效率与资源利用率,降低部署成本
任职资格:
-教育背景: 计算机、人工智能等相关专业硕士及以上学历
-编程功底: 熟练掌握 Python、 PyTorch,具备扎实的数据结构与算法基础,具备良好的工程实现能力
-大模型经验:熟悉 Transformer 模型结构与推理流程(prefill / decode / KV cache / attention)
-加分项
-参与过 vLLM / SGLang / TensorRT-LLM 等推理系统优化,熟悉 vLLM/SGLang 等推理框架中的推理实现细节
-熟悉 Eagle / Eagle3 / DFlash / Medusa 等投机推理或高效推理方案
-有量化感知训练(QAT)或 MTP 训练 实践经验,有大规模线上推理服务优化经验
-有大模型训练-推理协同优化方向上的论文或技术报告发表