工作职责:
-分析常见大模型在GPU和自研芯片上的性能瓶颈,挖掘自研芯片优化潜力
-基于百度自研芯片,开发常见大模型算子,充分发挥算力极限
-针对常见训推引擎,封装并开发算子API,发挥端到端性能表现
-承接公司内外前沿模型的算子开发需求,扫清模型的算子依赖
-探索利用AI Agent开发或优化GPU和自研芯片算子性能
任职要求:
-计算机相关专业,有C/C++/Python基础,熟悉Linux开发环境
-有深度学习框架(PyTorch, TensorFlow, PaddlePaddle等)使用经验优先
-熟悉CUDA、OpenCL、AscendC等高性能计算编程经验优先
-理解量化算子技术,熟悉不同精度数据格式(FP8、FP16、BF16等)优先
-理解卡间、机间通信原理,熟悉模型并行技术(TP、PP、DP等)优先
-理解GPU、XPU、TPU、NPU等AI计算加速芯片架构优先
-理解当代大语言模型架构(Qwen、DeepSeek等)优先
-对AI技术有热情,具备持续学习能力
