加入我们

大模型异构训练推理研发工程师(J96922)

申请职位
| 社会招聘 | 上海市,深圳市
发布时间:2026-05-01

工作职责:

-负责 AIGC 大模型在训练与推理场景下的工程化调优工作,覆盖模型适配、框架适配、参数配置与上线发布,保障模型在国产算力平台上的稳定运行与可用性
-针对大模型训练与推理性能瓶颈开展系统性优化,包括显存管理、并行策略(TP / PP / DP)、算子与内核优化、低精度与 LoRA 等方案落地,持续提升吞吐、时延与资源利用率,满足业务级 SLA 要求
-承担国产算力平台(国产 GPU )的大模型适配与问题闭环,定位并解决算子及框架兼容性问题,形成标准化适配流程与交付方案
-搭建并维护模型推训评估与测试体系,建设性能、精度、稳定性与回归测试能力,为模型上线、版本迭代及客户交付提供快速、可信的评估结果与决策依据
-深度参与客户项目交付与驻厂支持,作为技术负责人快速响应和处理模型部署、性能、精度及稳定性问题,协调多团队推进问题解决,确保项目按期交付和长期稳定运行

任职要求:

-本科及以上学历,计算机、软件工程或相关专业背景,具备扎实的计算机系统与工程基础
-具备优秀的工程编码能力,熟悉 Python / C / C++ 中至少一门,具备良好的代码规范意识;理解常见数据结构与算法,能够支撑复杂系统的调试与优化工作
-熟悉容器化与云原生基础技术,理解 容器运行时、镜像机制、容器网络与资源隔离原理,具备容器环境下部署与排障经验
-熟悉 PyTorch 框架,熟悉Megatron-LM、vLLM、sglang、TensorRT-LLM、DeepSpeed 等大模型训练或推理框架,具备框架二次开发经验
-了解 GPU 计算与并行基本原理,对 GPU 架构、显存模型或算子执行流程有一定认知;具备 大规模模型训练或推理实战经验者优先
-在以下至少一个方向具备较深入的工程实践经验者优先:推理优化方向:负载均衡与调度、KV Cache / 缓存策略、模型压缩(量化 / 蒸馏)、多卡与异构计算加速;训练优化方向:分布式训练(DP / TP / PP)、显存优化(ZeRO / Offload)、混合精度训练、MoE 模型训练与调优
-具备良好的问题分析与定位能力,能够独立完成复杂问题的排查、定位和解决,并推动问题形成闭环
-具备较强的责任心与执行力,良好的学习能力与沟通协作能力,能够在项目交付和跨团队协作场景中承担关键技术角色