工作职责:
-负责构建集团内部GPU 利用率指标体系,包含利用率、显存、吞吐、MFU 等核心指标的采集、统计与分析
-搭建 GPU 资源使用的报表与可视化体系(日报/周报/业务线视角/集群视角/作业视角等)
-识别低效作业、异常资源占用、Idle/Ghost GPU 等问题,下钻分析并给出优化建议
-GPU全生命周期精细化运营管理,覆盖到货、交付、购买、使用端到端环节,实现动态监控和运营优化管理
-与业务、产品、运维等管理团队协作,共同推进 GPU 利用效率优化和交付效率优化
任职要求:
-具备云计算、GPU 相关硬件、AI Infra、或大模型训练任一方向的知识背景
-熟悉 GPU 基础指标(如利用率、显存占用、通信瓶颈、MFU 等)并具备相关分析经验
-具备良好的数据分析能力,熟练使用 SQL / Python或可视化工具
-具备清晰的数据分析逻辑,能从数据中发现问题并提出可量化的优化建议,有较强的逻辑和沟通能力
-出色的团队协作能力和学习能力,有独立思考和判断能力,善于团结多方面力量推动项目落地
