加入我们

大模型训推框架优化实习生(J97863)

申请职位
| 实习生招聘 | 北京市,上海市,深圳市
发布时间:2026-05-01

工作职责:

-关于我们:我们是百度智能云AI计算部训推加速团队。立足芯片-框架-服务全栈视角,专注大模型训练与推理性能的极致优化,以“极致加速”、“业界领先”为核心目标,全力驱动公司及外部客户在大模型技术上的高速迭代,用技术定义下一代大模型的算力边界
在这里,你能接触到
-万卡推理集群:支撑公司 MaaS 平台,稳定运行数万卡推理服务,承载海量并发请求
-千卡训练集群:深度优化数个千卡级大模型训练任务,保障核心模型高效产出
-自研芯片落地:推动自研 AI 芯片在内外部的规模化应用,已实现上万卡集群的量产落地
在这里,你可以参与
-大模型推理引擎优化:面向大规模 MoE 架构,从服务调度、并行策略、KV Cache 管理等维度进行极致优化。确保 DeepSeek、GLM 等 SOTA 模型能获得业界最优的吞吐与延迟表现;积极参与sglang社区,将领先的feature回馈社区
-高性能 KV 系统开发:参与自研的生产级 KV Cache 池化系统的开发,实现 Prefill 与 Decode 阶段的一化内存管理,突破显存墙限制,提升长上下文处理能力
-全模态训练引擎研发:构建自研全模态训练框架,设计自适应切分与通算编排策略,让 LLM、VLM、VLA 等多模态前沿模型获得业界领先的训练效率
-自研芯片算子与适配:深入底层硬件,极致优化自研芯片算子性能,完成主流大模型框架的适配与迁移,充分释放自研芯片的算力潜能

任职要求:

-思维活跃,学习能力强、自驱力强,愿意主动捣腾事情
-对大模型训推引擎或异构计算编程有浓厚的兴趣。拥有 vLLM、SGLang、Megatron、DeepSpeed 等主流框架的实战或者学习经验,或具备深入的 CUDA/高性能算子开发经历
-对技术执着,不满足于“能跑”,致力于“更快”,愿意死磕每一个微小的优化点,追求系统性能的极致边界
以下优先
-具备良好的"Vibe Coding"素养,善于利用 AI 工具链提升工程效率,对人机协同编程有丰富的实践经验和独到感悟
-在大模型训推方向有优秀的论文产出,能够将工程实践转化为高质量的学术成果