加入我们

平台研发工程师实习生(大模型训推任务故障诊断方向)(J97862)

申请职位
| 实习生招聘 | 北京市
发布时间:2026-05-01

工作职责:

-参与大模型训练与推理任务的运行监控与故障定位体系建设,支撑 GPU 集群稳定运行
-设计与开发异常诊断工具,支持对训练/推理任务 hang、GPU 利用率异常、OOM、通信卡死等问题进行自动化排查与根因定位
-沉淀典型故障模式与排查流程,形成标准化诊断 SOP,推动问题闭环解决与系统性优化
-建设 GPU 任务运行指标体系与可观测能力,提升异常检测与问题响应效率
-协助分析 GPU 利用率、显存利用率、通信耗时等关键指标,推动资源利用率优化与调度效率提升

任职要求:

-计算机或相关专业,本科及以上在读,具备扎实的数据结构与操作系统基础,理解进程调度、内存管理与网络通信等基本原理;具备良好的编程能力与工程规范意识,熟悉 Python(优先)/ Go / Java 中至少一门语言
-熟悉 Linux 环境,能够使用常见命令进行问题排查,包括 top / ps / lsof / nvidia-smi / netstat / dmesg 等;了解基本的性能分析工具(如 perf)
-了解至少一种主流 AI 框架(如 PyTorch 或 TensorFlow)的基本运行机制,理解训练任务执行流程及多机多卡训练基本原理
-具备系统化的问题定位能力,能够结合日志、指标与系统状态进行结构化分析,对复杂系统故障排查与性能优化有兴趣
有处理 GPU 任务 hang / OOM / 利用率异常等问题经验者优先-