加入我们

大模型AI Infra研发工程师(J97174)

申请职位
| 社会招聘 | 北京市,上海市,深圳市
发布时间:2026-05-01

工作职责:

-RL基础设施:负责百亿至万亿参数模型的分布式训练架构设计与演进。针对数千卡 GPU 互联场景,通过自顶向下的性能分析,利用 5D 并行以及通信优化策略,消除大规模分布式训练瓶颈,提升训练效率和线性加速比
-训练性能优化:深入软硬协同层,通过手写 CUDA / Triton 算子、算子融合及 XLA / MLIR 等编译优化技术,挖掘 GPU 硬件极致算力,打造一流的执行引擎,追求业界SOTA的 MFU
-训练框架演进:结合前沿的大语言模型(LLM)与多模态模型结构,协同算法团队进行框架级优化(如 Checkpointing、显存优化、Overlap 通信掩盖),优化单位算力的模型效果
-训练稳定性:通过研究各种稳定性优化算法,确保训练稳定高效,包括但不限于grpo/ppo/gspo/dapo/TIS/MIS/R3/Keep Sample Mask 等等
-AI 创新应用落地支撑:作为算力基座的核心支撑,支持行业顶尖的 GPT、AIGC、多模态模型在 AI 创新应用场景的业务落地,解决实际业务中的大规模与稳定性挑战,确保模型从训练到应用的顺畅衔接

任职要求:

-工程与算法基础:计算机相关专业背景,有极佳的工程实现能力,精通 C/C++ 与 Python;具备扎实的数据结构与算法功底,熟练掌握 GDB / Nsight 等调试与性能分析工具
-大规模分布式经验:有大规模分布式系统开发和优化经验。对现代 GPU 集群通信机制及 NCCL 等通信库原理有深刻理解,有大模型分布式训练工程经验者优先
-算法工程协同设计:对 LLM、多模态等大模型结构及其核心算法流程有深入理解者优先
-异构计算与底层技术:熟悉异构计算体系结构,包括但不限于现代 GPU 并行架构、CUDA 编程、Triton 和 Cutlass 等硬件 DSL 以及高性能网络技术
-主流框架内核:精通 PyTorch / JAX / Megatron-LM 等业界主流大模型引擎的内核实现机制。精通 XLA / MLIR 等编译优化技术者优先
-加分项:对钻研技术有热情,勤于动手,善于动脑,不惧困难