百度昆仑芯定制网申网申系统--招聘详细

大模型推理研发实习生(J99523)

招聘类别：
实习生招聘
工作性质：
全职
薪资范围：
面议
招聘人数：
1

发布时间：
2026-05-01
截止时间：

工作地点：
广东省-深圳市

工作职责：

-参与大模型推理系统的研发与建设，协助支撑大模型在线服务与离线推理业务的稳定运行，参与模型部署、推理链路优化及推理服务工程化能力建设
-参与大模型推理性能优化相关工作，协助开展模型压缩、量化、算子优化、KV Cache 管理、批处理调度等能力开发与效果评测，支持不同模型规格和硬件环境下的推理性能验证
-参与推理引擎及服务框架相关模块的研发与优化，协助推进系统在高可用、稳定性、性能、可扩展性等方向的能力建设，参与推理服务、任务调度、资源管理、缓存机制或接口链路等相关模块的开发与问题排查
-参与大模型推理业务的工程化落地，协助优化首 Token 时延、吞吐、显存利用率与服务稳定性，支持多场景下的推理部署、性能调优与效果保障工作
-参与多卡、多机推理场景下的系统研发与稳定性建设，协助分析和处理生产环境中的性能抖动、显存瓶颈、调度异常、延迟波动等问题
-参与推理平台后端能力建设，支持模型服务管理、性能监控、容量评估与成本优化等相关能力建设，参与监控、日志、Tracing 等可观测体系的开发与维护，推动常见问题定位与处理流程的自动化
-参与推理效果与性能联合优化工作，协助从模型结构、推理框架、服务架构等多个层面分析影响推理效率与结果质量的关键因素，推动优化方案落地

任职资格：

-计算机、人工智能、软件工程、数学等相关专业本科或硕士在读，具备扎实的计算机基础
-了解机器学习、深度学习和大模型推理的基本流程，对推理加速、模型部署或推理服务方向有实践兴趣
-熟悉 Python、C / C++、Go、Java 中至少一种编程语言，具备良好的编码能力，熟悉 Python 或 C / C++ 者优先
-熟悉 Linux 操作系统基础，了解进程、内存、网络、并发编程等基本原理
-具备良好的工程习惯、文档意识和沟通协作能力，能够主动学习并推动问题解决
-对模型推理优化方向有较强兴趣，了解 GPU、显存管理、并行计算或异构硬件基础者优先
-有推理引擎、模型部署、服务框架、性能优化或大模型相关项目经验者优先
-了解 Transformer、大语言模型、多模态模型等常见模型结构，能够从推理侧理解其运行特性与性能需求者优先
-了解常见推理优化方法，如量化、蒸馏、剪枝、算子融合、动态批处理、Paged Attention、KV Cache 优化等者优先
-了解多卡/多机场景下常见并行模式（如 TP / DP / PP / EP）或分布式推理方案者优先
-具备较强的问题分析与定位能力，能够在指导下完成复杂系统中的性能分析、问题排查与模块开发

现在申请

返回职位列表

热招职位更多 >>

长招职位更多 >>