加入我们

推理性能优化工程师(J85683)

申请职位
| 社会招聘 | 北京市
发布时间:2026-05-01

工作职责:

-负责内容架构相关开发工作,工作内容包括但不限于:模型推理性能优化、推理卡集群GPU利用率治理、模型服务化、GPU资源调度功能研发等
-负责多模态LLM和Diffusion Model的推理性能的极致优化,保持业界SOTA
-紧跟多模态LLM、视频生成领域最新研究进展和技术趋势,协同策略团队完成业务落地
-和团队一起攻克高性能、高并发、高可用性等各种不同技术场景下的技术挑战

任职要求:

-熟练掌握Linux环境下的C/C++、Python语言,熟悉docker使用
-熟悉深度学习基本原理和Pytorch深度学习框架,有对Pytorch框架二次开发经验者优先
-熟悉Transformer模型及其应用场景,熟练掌握至少一种开源社区的大模型推理框架,如vLLM、SGLang、TensorRT-LLM、LightLLM等
-熟练GPU的高性能计算优化技术,深入理解计算机体系结构,熟悉并行计算优化、访存优化,低比特计算等,有CUDA开发经验者优先
-具备良好的论文阅读分析和文档撰写能力,独立解决问题的能力,良好的团队合作精神
【加分项】
-具备机器学习平台或者大模型推理加速相关研发经验者优先
-参与开源分布式推理框架项目开发,并提供相应代码贡献者优先