工作职责:
-预训练和微调大语言模型,基于小度自有数据,训练更适合小度需求场景的大语言模型
-与数据工程师合作,理解和预处理数据,以准备用于深度学习模型的输入
-阅读和理解最新的研究论文,跟踪和使用业界前沿实践进行模型训练,验证并分析效果和
-监控模型训练过程,进行问题排查和调优
任职要求:
-计算机科学,电子工程,数学,物理或相关领域的硕士或博士学位
-对深度学习,机器学习,神经网络,transformer有深入的理解,有项目中应用的经验
-具有良好的编程能力,有Python和C++编程经验和深度学习框架使用经验,熟悉pytorch、megatron-lm
-能阅读和理解技术研究论文,并能将论文的观点转化为实际的算法
-善于解决问题和适应新的技术变化