工作职责:
-负责大模型数据合成相关工作,包括技术调研、数据生成与处理、模型训练及效果评估
-负责大规模文本、多模态数据的处理与清洗工作,优化数据质量
-支持大模型在实际业务场景中的应用落地,负责平台客户的场景建模任务,将模型算法落地到客户的业务场景中
-与其他角色和团队合作,共同完成相关项目需求
任职要求:
-熟练掌握 Python/GO 中至少一种编程语言,具备良好的编码习惯和常用设计模式的理解
-具备大规模的预训练/指令/偏好数据的收集、清洗、构建经验,有大模型数据合成、图文多模态数据处理经验者优先
-熟悉大模型评测方式和各类评估指标,对如何准确、高效地评估大模型各类能力有实践经验
-熟悉大模型调优,有开源大模型的Pretrain/SFT等训练经验,有多模态训练/调优经验的优先
-熟练使用Docker、Kubernetes相关生态和工具,熟悉Spark等大规模数据处理框架者优先
-具备良好的沟通以及团队合作能力,拥有较强的学习意愿和能力,能够快速掌握工作所需的知识和技能