平台研发工程师实习生(大模型训推任务故障诊断方向)(J97862)
  • 招聘类别:
  • 实习生招聘
  • 工作性质:
  • 全职
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 1
  • 发布时间:
  • 2026-05-01
  • 截止时间:
  •  
  • 工作地点:
  • 北京市

工作职责:

-参与大模型训练与推理任务的运行监控与故障定位体系建设,支撑 GPU 集群稳定运行
-设计与开发异常诊断工具,支持对训练/推理任务 hang、GPU 利用率异常、OOM、通信卡死等问题进行自动化排查与根因定位
-沉淀典型故障模式与排查流程,形成标准化诊断 SOP,推动问题闭环解决与系统性优化
-建设 GPU 任务运行指标体系与可观测能力,提升异常检测与问题响应效率
-协助分析 GPU 利用率、显存利用率、通信耗时等关键指标,推动资源利用率优化与调度效率提升


任职资格:

-计算机或相关专业,本科及以上在读,具备扎实的数据结构与操作系统基础,理解进程调度、内存管理与网络通信等基本原理;具备良好的编程能力与工程规范意识,熟悉 Python(优先)/ Go / Java 中至少一门语言
-熟悉 Linux 环境,能够使用常见命令进行问题排查,包括 top / ps / lsof / nvidia-smi / netstat / dmesg 等;了解基本的性能分析工具(如 perf)
-了解至少一种主流 AI 框架(如 PyTorch 或 TensorFlow)的基本运行机制,理解训练任务执行流程及多机多卡训练基本原理
-具备系统化的问题定位能力,能够结合日志、指标与系统状态进行结构化分析,对复杂系统故障排查与性能优化有兴趣
有处理 GPU 任务 hang / OOM / 利用率异常等问题经验者优先-

©2026  百度昆仑芯定制网申   京ICP备05051632号-16 京公网安备 11010802032024号隐私政策 Powered by