工作职责:
-Site Reliability Engineer,负责百度公司大规模分布式系统及各类云服务可靠、稳定、高效运行
-参与百度智能云系统和各类产品架构设计,主导服务可用性相关平台/自动化系统的实现
-设计研发智能云规模化运维的技术解决方案,包括大模型训练、服务器生命周期管理、高性能存储、交付、故障预测、成本管理等
-关注业界前沿技术动态,熟悉大模型框架、高性能通信、os/kernel、openstack、kvm、分布式存储、虚拟化网络等相关技术,贡献与引领业界技术趋势
任职要求:
-专业倾向于计算机、通信、数学等理工学科,1-5年运维/SRE工作经验者优先,不限于稳定性、成本、效率等相关工作
-深入理解Linux操作系统;具备较好的计算机网络和体系结构基础
-熟练掌握Python/Go/Shell等至少一种主流编程语言
-对 k8s、 云计算、虚拟机等技术有浓厚的兴趣优先,了解容器化技术、 OpenStack、虚拟化网络、KVM、分布式存储等相关技术
-具有良好的逻辑思维和分析能力,热衷解决问题、追求极致;具有强烈的责任心、进取心、Ownership
