工作职责:
-负责云原生产品 Kubernetes 容器引擎、镜像服务、可观测服务等的设计与研发工作,提升产品竞争力及体验
-负责大规模 AI Infra 云原生底座的设计与研发工作,基于云原生技术打造异构多元芯算力底座,支持国产化信创,支持业务进行大规模训练、容错及弹性推理,构建异构多元芯算力底座
-负责打造现代化的云原生智能运维能力,设计和实现覆盖 AI 场景全栈的故障感知、诊断及自愈能力
-持续提升云原生产品服务及基础设施的稳定性,优化服务性能,提升架构的可扩展性
-探索业界最新技术方向,参与开源社区,提升百度云原生核心竞争力
任职要求:
-本科及以上学历,计算机、软件工程及相关专业,1 年以上相关工作经验
-熟悉操作系统及网络原理,理解数据结构和算法,熟练掌握 Go、Java 、C/C++ 中至少一门语言,熟练使用 Linux,了解 GPU 架构优先
-至少具备以下经验之一:具有 Kubernetes 的 Operator 及 CRI/CSI/CNI 等插件开发经验;有 Kubernetes 核心组件二次开发经验优先(Kubelet/Containerd/Master 等);具有 AI 调度/编排/运行时组件开发经验(Volcano/Kueue/KubeFlow/device-plugin/GPU虚拟化等);对 PyTorch、Ray、vLLM 等有使用经验者
-熟悉 OCI 规范及其开源实现如 Harbor/Docker/ContainerD,并有开发或集成经验
-熟悉可观测技术及其原理如 Promethues/VictoriaMetrics/Grafana,有开发或集成经验
-了解 MTL 相关技术、开源项目及规范,有使用经验者优先
-具备系统架构设计能力,具备云计算、分布式架构设计经验者优先
-具备良好的逻辑、沟通和协作能力,能够迅速掌握新技术
-善于学习新知识,乐于钻研新技术,动手能力强,有强烈的自驱力和责任心
