工作职责:
-负责百度AI计算集群高性能通信库研发工作
-负责百度AI计算集群训推框架通信优化工作
-负责百度AI计算集群通信性能与可用性诊断工作
-负责百度AI计算集群与通信关联的其他软件研发与维护工作
任职要求:
-熟悉AI计算基本模式与AI集群设计构建;
-了解流行的AI训推框架(如Megatron、sglang等)与大模型(如LLAMA、DeepSeek等);
-熟悉RDMA等高性能网络技术和NCCL、NVSHMEM等通信库;
-有集群管理、运维相关的研发经验。
-负责百度AI计算集群高性能通信库研发工作
-负责百度AI计算集群训推框架通信优化工作
-负责百度AI计算集群通信性能与可用性诊断工作
-负责百度AI计算集群与通信关联的其他软件研发与维护工作
-熟悉AI计算基本模式与AI集群设计构建;
-了解流行的AI训推框架(如Megatron、sglang等)与大模型(如LLAMA、DeepSeek等);
-熟悉RDMA等高性能网络技术和NCCL、NVSHMEM等通信库;
-有集群管理、运维相关的研发经验。