工作职责:
-参与大模型推理系统的研发与建设,协助支撑大模型在线服务与离线推理业务的稳定运行,参与模型部署、推理链路优化及推理服务工程化能力建设
-参与大模型推理性能优化相关工作,协助开展模型压缩、量化、算子优化、KV Cache 管理、批处理调度等能力开发与效果评测,支持不同模型规格和硬件环境下的推理性能验证
-参与推理引擎及服务框架相关模块的研发与优化,协助推进系统在高可用、稳定性、性能、可扩展性等方向的能力建设,参与推理服务、任务调度、资源管理、缓存机制或接口链路等相关模块的开发与问题排查
-参与大模型推理业务的工程化落地,协助优化首 Token 时延、吞吐、显存利用率与服务稳定性,支持多场景下的推理部署、性能调优与效果保障工作
-参与多卡、多机推理场景下的系统研发与稳定性建设,协助分析和处理生产环境中的性能抖动、显存瓶颈、调度异常、延迟波动等问题
-参与推理平台后端能力建设,支持模型服务管理、性能监控、容量评估与成本优化等相关能力建设,参与监控、日志、Tracing 等可观测体系的开发与维护,推动常见问题定位与处理流程的自动化
-参与推理效果与性能联合优化工作,协助从模型结构、推理框架、服务架构等多个层面分析影响推理效率与结果质量的关键因素,推动优化方案落地
任职资格:
-计算机、人工智能、软件工程、数学等相关专业本科或硕士在读,具备扎实的计算机基础
-了解机器学习、深度学习和大模型推理的基本流程,对推理加速、模型部署或推理服务方向有实践兴趣
-熟悉 Python、C / C++、Go、Java 中至少一种编程语言,具备良好的编码能力,熟悉 Python 或 C / C++ 者优先
-熟悉 Linux 操作系统基础,了解进程、内存、网络、并发编程等基本原理
-具备良好的工程习惯、文档意识和沟通协作能力,能够主动学习并推动问题解决
-对模型推理优化方向有较强兴趣,了解 GPU、显存管理、并行计算或异构硬件基础者优先
-有推理引擎、模型部署、服务框架、性能优化或大模型相关项目经验者优先
-了解 Transformer、大语言模型、多模态模型等常见模型结构,能够从推理侧理解其运行特性与性能需求者优先
-了解常见推理优化方法,如量化、蒸馏、剪枝、算子融合、动态批处理、Paged Attention、KV Cache 优化等者优先
-了解多卡/多机场景下常见并行模式(如 TP / DP / PP / EP)或分布式推理方案者优先
-具备较强的问题分析与定位能力,能够在指导下完成复杂系统中的性能分析、问题排查与模块开发