加入我们

AI通信库加速研发工程师(J83940)

申请职位
| 社会招聘 | 北京市
发布时间:2025-03-27

工作职责:

-针对公有云上客户模型训练、推理的遇到的网络吞吐和延迟问题定位和调优
-参与 AI 通信库、集合通信库的开发和优化工作,针对通信协议和数据处理中的瓶颈进行深入分析与调试
-使用性能分析工具(如 NVIDIA Nsight Systems)对通信库进行性能分析,定位性能瓶颈
-跟踪 AI 通信领域的最新技术发展,包括 RDMA、GPUDirect RDMA、NVLink 等
-持续关注大模型前沿技术及最新研究成果,评估其在公有云应用可行性,为后续产品迭代提供技术支持

任职要求:

-本科及以上学历,计算机、网络、人工智能相关专业
-对大模型的训练、推理场景有浓厚的兴趣,具有自我驱动和管理能力,能够针对系统的不足提出改进方案并推动实现
-熟练使用C++/Python编程,熟悉CUDA、MPI、OpenMP等并行编程技术,有通信库(NCCL/UCX/NVSHMEM)开发经验者优先
-良好的沟通协作能力,能够适应跨团队合作及多任务环境,抗压能力强,具有较强的责任心