加入我们

云交付研发工程师(J90647)

申请职位
| 社会招聘 | 北京市
发布时间:2026-05-01

工作职责:

-Site Reliability Engineer,负责百度公司大规模分布式系统及各类云服务可靠、稳定、高效运行
-设计研发智能云规模化运维的技术解决方案,包括服务器生命周期管理、高效交付、故障预测等
-设计优化云交付全链条质量保障策略,深入GPU硬件特性,分析硬件故障根因及优化机制
-参与大语言模型在运维领域落地的相关研发,以及大语言模型微调、推理服务建设相关工作,支持智能运维等产品落地
-关注业界前沿技术动态,熟悉OpenStack、KVM、分布式存储、虚拟化网络等相关技术,贡献与引领业界技术趋势

任职要求:

-专业倾向于计算机、通信、电子等理工学科,2-5年工作经验者优先
-深入理解Linux操作系统;具备较好的计算机网络和体系结构基础
-具备深度学习,模型训练经验者更优
-具备硬件知识,掌握GPU架构及硬件设备元器件原理者优先
-熟练掌握Python/Go/Shell等至少一种主流编程语言
-对 k8s、 云计算、虚拟机等技术有浓厚的兴趣优先,了解容器化技术、 OpenStack、虚拟化网络、KVM、分布式存储等相关技术
-具有良好的逻辑思维和分析能力,热衷解决问题、追求极致;具有强烈的责任心、进取心、Ownership