加入我们

深度学习分布式通信库专家(J95032)

申请职位
| 社会招聘 | 北京市,上海市
发布时间:2026-05-01

工作职责:

-设计和实现昆仑芯通信库,支持千卡以上大模型训练
-分析&定位大模型训练过程中相关网络问题,快速定位故障和恢复
-调研下一代互连结构&方案
-指导新一代芯片互连设计

任职要求:

-计算机相关专业
-有5年以上深度学习分布式训练经验
-熟悉RDMA、IB底层原理和应用
-熟悉NCCL或相关通信库开发经验