IaaS研发实习生(J99325)
  • 招聘类别:
  • 实习生招聘
  • 工作性质:
  • 实习
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 2
  • 发布时间:
  • 2026-05-01
  • 截止时间:
  •  
  • 工作地点:
  • 广东省-深圳市

工作职责:

-参与 AI Infra 核心平台的研发与建设,协助支撑大模型训练与推理业务的稳定运行,参与 GPU、RDMA、高速网络等算力资源在云原生体系中的管理与调度能力开发
-参与 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,协助建设标准化算力验收与持续评测体系,支持不同硬件规格在集群环境下的可用性验证
-参与 Kubernetes 容器平台相关模块的研发与优化,协助推进平台在高可用、稳定性、安全性、性能、可扩展性等方向的能力建设,参与调度、资源隔离、设备插件、网络或存储等相关模块的开发与问题排查
-参与大模型推理与训练业务的平台侧工程化落地,协助优化资源利用率、调度效率与平台稳定性,支持推理与训练场景下的资源管理与性能优化工作
-参与多卡、多机 GPU 集群场景下的平台研发与稳定性建设,协助分析和处理生产环境中的性能抖动、资源碎片化、调度异常等问题
- 参与运维与运营平台后端研发,支持算力运营、性能监控、容量管理与成本治理等相关能力建设,参与监控、日志、Tracing 等可观测体系的开发与维护,推动常见问题定位与处理流程的自动化


任职资格:

-计算机相关专业本科或硕士在读,具备扎实的计算机基础
-了解 Kubernetes、容器、云原生等相关技术体系,对容器平台或分布式系统有实践兴趣
-熟悉 Go、Python、C / C++、Java 中至少一种编程语言,具备良好的编码能力,熟悉 Go 语言者优先
-熟悉 Linux 操作系统基础,了解进程、网络、存储、资源隔离等基本原理
-具备良好的工程习惯、文档意识和沟通协作能力,能够主动学习并推动问题解决
-对 GPU、RDMA、高速网络等算力基础设施有一定了解,对 AI Infra 方向有较强兴趣
-有 Kubernetes、云原生、分布式系统、GPU / HPC 相关项目经验者优先
-了解大模型训练与推理的基本流程,能够从平台侧理解其运行需求者优先
-了解多卡/多机场景下常见并行模式(如 TP/DP/PP/PD)者优先
-具备较强的问题分析与定位能力,能够在指导下完成复杂系统中的问题排查与模块开发

©2026  百度昆仑芯定制网申   京ICP备05051632号-16 京公网安备 11010802032024号隐私政策 Powered by