加入我们

大模型分布式训练研发工程师(J80425)

申请职位
技术 | 社会招聘 | 北京市
发布时间:2024-11-12

工作职责:

-参与负责百度文心大模型的训练优化和支持
-负责百度核心产品飞桨的分布式训练功能和架构开发
-参与前沿大模型训练技术和超大规模分布式训练架构技术的探索和研究
-参与飞桨深度学习框架的优化工作,使开发者能够以更简单的方式实现各类任务,降低学习成本和开发成本
-负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化
-探索深度学习大语言模型、跨模态模型等领域的算法-工程协同优化方案
-根据整体技术方案完成高质量的开发、自测及项目文档编写

任职要求:

-热爱大模型训练技术或者深度学习框架技术
-计算机软件或相关专业硕士及以上学历
-有Linux/Unix下开发经验,熟悉多线程编程、网络编程
-熟悉大模型训练技术(高性能,算法策略,集群容错)或优化技术熟悉CUDA编程,高性能优化者优先
-了解飞桨或其他深度学习分布式训练框架技术如DeepSpeed,Megatron等经验者优先
-优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情
-思路清晰,具备良好的沟通能力和理解能力
-工作积极主动,具有强烈的责任心
-良好的团队合作精神