加入我们

混合云异构计算工程师(J82688)

申请职位
| 社会招聘 | 北京市
发布时间:2025-02-18

工作职责:

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署
-负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案
-结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率
-在自研芯片上适配常见的大模型与自驾模型,并结合芯片特点做优化,充分发挥自研芯片算力
-针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用
-探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力

任职要求:

-本科及以上学历,计算机、AI相关专业知识背景
-熟悉PyTorch,了解Megatron、vLLM等大模型训推框架,做过测试、开发等工作
-对GPU芯片架构有一定了解者优先,有大规模训练推理实践经验者优先
-熟悉推理优化:负载均衡、模型压缩(蒸馏/量化)、缓存策略、异构计算加速等
-熟悉训练优化:分布式训练、显存优化(如Zero/Offload)、混合精度、MoE架构调优等
-优秀的编码能力,熟悉Golang/Python/Java/C/C++至少一项,有扎实的算法及数据结构基础
-熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时、容器网络等技术,有Kubernetes开发和维护经验
-有独立的分析问题和解决问题的能力,有强烈的责任心,较强的学习能力和沟通能力