加入我们

大模型SRE工程师(J94322)

申请职位
| 社会招聘 | 北京市
发布时间:2026-05-01

工作职责:

-负责公司一言业务(大模型)的稳定性、可用性和性能保障运维
-负责公司一言基础设施(GPU/CPU)的容量管理、成本治理,持续优化资源的使用效率
-负责业务可观测性体系建设与维护,落实高效的监控、告警与故障响应机制
-负责设计和研发自动化运维平台与工具链,通过代码提升部署及日常运维管理效率

任职要求:

-本科及以上学历,计算机相关专业,五年以上业务运维相关经验
-深入理解Linux系统,熟悉GPU架构、CUDA基础;具备很强的线上系统故障排查和解决能力
-有分布式系统的资源管理和任务调度系统运维经验,熟悉Kubernetes生态和架构
-具备优秀的编码及设计能力,至少精通Golang/Python等一种编程语言
-对技术有热情,具备出色的学习能力、沟通协作能力和解决问题的能力