工作职责:
-开发自动化评测框架:参与开发和维护Agent的自动化评测框架,实现对大模型多维度能力的自动化量化评估;
-数据处理与结果分析: 处理模型运行结果数据,进行细致的数据分析,洞察agent在不同任务、不同场景下的表现,并识别其优势与不足;
-撰写评测报告:基于分析结果,撰写清晰、专业的agent能力评测报告,为研发团队提供有力的决策支持;
-参与构建benchmark,参与发表顶会论文,增加团队开源影响力;
任职要求:
-学历背景: 计算机科学、软件工程、人工智能或相关专业的在校本科生或研究生。
-技术能力:具备扎实的编程能力,熟练掌握 Python 语言。对大模型能力评估有基本认知。
-个人特质:对创新事务有足够的热情,学习能力强,主动性强,具备严谨的逻辑思维和数据分析能力。
