-设计和实现昆仑芯通信库,支持千卡以上大模型训练 -分析&定位大模型训练过程中相关网络问题,快速定位故障和恢复 -调研下一代互连结构&方案-指导新一代芯片互连设计
-计算机相关专业-有5年以上深度学习分布式训练经验 -熟悉RDMA、IB底层原理和应用 -熟悉NCCL或相关通讯库开发经验