加入我们

高级 IaaS 研发工程师(J97206)

申请职位
技术 | 社会招聘 | 深圳市
发布时间:2026-05-01

工作职责:

-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度
-负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性
-负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发
-支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用
-参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题
-参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本

任职要求:

-计算机相关专业本科及以上学历,3年及以上后端/平台/云原生相关经验
-熟悉 Kubernetes 生态,具备容器平台或云原生系统的实际建设经验
-熟练掌握 Go 语言,具备中大型后端或平台系统的设计与开发能力
-熟悉 Linux 操作系统原理,理解容器网络、存储、资源隔离与调度机制
-具备良好的工程习惯、文档意识和跨团队沟通协作能力
-了解 GPU、RDMA 等算力资源在云原生体系中的使用与管理方式
-具备 GPU 集群或高性能计算相关的工程经验者优先
-了解大模型训练与推理的基本流程,能够从平台视角支撑其稳定运行
-熟悉或了解多卡/多机场景下的并行模式(TP/DP/PP/PD 等)
-具备性能分析与问题定位能力,能够在复杂系统中拆解并解决稳定性或性能问题