昆仑芯官方招聘

工作职责:

-RL基础设施：负责百亿至万亿参数模型的分布式训练架构设计与演进。针对数千卡 GPU 互联场景，通过自顶向下的性能分析，利用 5D 并行以及通信优化策略，消除大规模分布式训练瓶颈，提升训练效率和线性加速比
-训练性能优化：深入软硬协同层，通过手写 CUDA / Triton 算子、算子融合及 XLA / MLIR 等编译优化技术，挖掘 GPU 硬件极致算力，打造一流的执行引擎，追求业界SOTA的 MFU
-训练框架演进：结合前沿的大语言模型（LLM）与多模态模型结构，协同算法团队进行框架级优化（如 Checkpointing、显存优化、Overlap 通信掩盖），优化单位算力的模型效果
-训练稳定性：通过研究各种稳定性优化算法，确保训练稳定高效，包括但不限于grpo/ppo/gspo/dapo/TIS/MIS/R3/Keep Sample Mask 等等
-AI 创新应用落地支撑：作为算力基座的核心支撑，支持行业顶尖的 GPT、AIGC、多模态模型在 AI 创新应用场景的业务落地，解决实际业务中的大规模与稳定性挑战，确保模型从训练到应用的顺畅衔接

任职要求:

-工程与算法基础：计算机相关专业背景，有极佳的工程实现能力，精通 C/C++ 与 Python；具备扎实的数据结构与算法功底，熟练掌握 GDB / Nsight 等调试与性能分析工具
-大规模分布式经验：有大规模分布式系统开发和优化经验。对现代 GPU 集群通信机制及 NCCL 等通信库原理有深刻理解，有大模型分布式训练工程经验者优先
-算法工程协同设计：对 LLM、多模态等大模型结构及其核心算法流程有深入理解者优先
-异构计算与底层技术：熟悉异构计算体系结构，包括但不限于现代 GPU 并行架构、CUDA 编程、Triton 和 Cutlass 等硬件 DSL 以及高性能网络技术
-主流框架内核：精通 PyTorch / JAX / Megatron-LM 等业界主流大模型引擎的内核实现机制。精通 XLA / MLIR 等编译优化技术者优先
-加分项：对钻研技术有热情，勤于动手，善于动脑，不惧困难

加入我们

大模型AI Infra研发工程师(J97174)

工作职责:

任职要求: