加入我们

AI Infra开发工程师实习生(可观测/运维平台方向)(J99647)

申请职位
| 实习生招聘 | 北京市,上海市
发布时间:2026-05-01

工作职责:

-构建统一可观测数据底座:负责日志、指标、链路(Tracing)等多维数据的采集、处理与存储体系建设,推进数据标准化与互联互通,打造统一的数据底座,支撑大规模分布式系统的可观测与运维分析能力
-设计与实现智能运维能力闭环:围绕“巡检 → 诊断 → 根因定位 → 调度止损”构建自动化运维闭环,结合规则引擎与 AI 能力,提升问题发现、定位与处置效率,推动运维从被动响应向主动治理演进
-开发 AI-Agent 驱动的 AIOps 能力中心(AIOps Platform):负责构建以 Agent 为核心的运维平台架构,将诊断、调度、分析等能力进行标准化封装与服务化治理,形成可编排、可推理、可演进的能力体系;通过 Skill / Plugin 机制实现能力的模块化沉淀与动态扩展,支持多 Agent 协同完成复杂运维任务,持续提升平台的自动化与智能化水平
-推动 AI 与运维融合及异构资源治理能力建设:引入大模型与机器学习能力,构建智能分析、异常检测与自动诊断等核心能力,提升系统自愈与智能决策水平;同时面向 CPU / GPU / 混部等异构算力场景,建设统一的资源观测与调度支撑体系,提升资源利用率与系统稳定性
-提升平台稳定性与工程效率:通过自动化运维、发布治理、容量规划与性能优化等手段,保障平台高可用与稳定运行,并持续提升研发与运维整体效率

任职要求:

-扎实的基础知识与工程能力:具备良好的计算机基础(操作系统、网络、数据结构等),具备一定编码能力(如 Go / Python / Java 等),能够完成基础功能开发与问题定位
-清晰的逻辑思维与问题拆解能力:面对复杂问题具备良好的分析与拆解能力,能够从现象出发逐步定位问题本质,具备以解决问题为导向的思考习惯
-良好的学习能力与技术兴趣:对云计算、分布式系统或 AI 相关方向有兴趣,具备快速学习新技术并将其应用到实际问题中的能力
-基本的软件工程意识与责任感:具备良好的代码习惯与工程意识,能够在指导下参与系统开发与优化;具备责任心与沟通能力,能够推动问题闭环