加入我们

分布式计算研发工程师(J92969)

申请职位
| 社会招聘 | 北京市,深圳市
发布时间:2026-05-01

工作职责:

-负责大规模AI计算集群基础设施和产品的设计与研发工作
-构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率
-基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等
-基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力
-持续优化分布式系统架构,提升服务和产品的稳定性,优化服务性能和可扩展性

任职要求:

-计算机及相关专业本科及以上学历
-熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时、容器网络等技术,有Kubernetes开发维护经验
-对Kubeflow、Volcano、Pytorch、GPU芯片架构有一定了解者优先
-具备良好的沟通能力和团队协作精神,严谨的工作态度,注重工程质量,有独立解决各种系统问题的能力
-善于学习新的知识,动手能力强,有强烈的责任心,喜欢钻研技术