加入我们

昆仑芯-深度学习分布式通信库专家(J83253)

申请职位
昆仑芯社招 | 社会招聘 | 北京市,上海市
发布时间:2025-03-13

工作职责:

-设计和实现昆仑芯通信库,支持千卡以上大模型训练
-分析&定位大模型训练过程中相关网络问题,快速定位故障和恢复
-调研下一代互连结构&方案
-指导新一代芯片互连设计

任职要求:

-计算机相关专业
-有5年以上深度学习分布式训练经验
-熟悉RDMA、IB底层原理和应用
-熟悉NCCL或相关通讯库开发经验