工作职责:
-负责大模型持续预训练和后训练的研发工作
-负责跟进并解决模型训练中所遇到的技术问题
-负责模型训练所需的数据工程与策略工作
-负责模型效果的评估工作
任职要求:
-计算机等相关专业硕士及以上学历
-熟悉Python/C++编程,有大数据、训练框架、CUDA等领域的编程经验
-深入理解GPU系统架构和主流大模型架构,具备模型架构的分析与设计能力
-有大模型预训练、SFT、RL相关项目的研发经验
-具备大规模数据处理经验,包括预训练/指令数据的收集、清洗、构建以及数据合成
-熟悉大模型评测方式和各类评估指标,对如何准确、高效地评估大模型各类能力有实践经验
