工作职责:
-数据智能画像与策略分析: 运用统计学及语义表征技术,对万亿级预训练/对齐数据进行深度挖掘与画像分析,探索数据分布与模型能力(Scaling Law)之间的内在联系
-全链路质量闭环建设: 针对SFT(指令微调)与RLHF(强化学习)阶段,设计多维度数据筛选策略(如困惑度、多样性、逻辑一致性等),通过启发式及模型化方案(LLM-as-a-Judge)提升模型对齐质量
-工业级数据治理流水线: 参与构建支撑大模型高效训练的高性能数据平台,包括分布式抓取、流式清洗、去重(MinHash/Semantic Deduplication)、敏感词检测及自动化标注体系的研发与优化
-模型能力自动化测评:研发领先的模型评估框架(Auto-Eval),设计端到端的评测基准(Benchmark),实现模型从训练到效果验证的高效迭代闭环
任职要求:
-基础扎实: 计算机、数学、信息工程等相关专业;对数据结构、算法有深刻理解,具备卓越的编码能力(精通 Python,熟悉 C++ / Go 至少一门)
-大模型认知: 熟悉 Transformer 架构,对 LLM 的预训练、微调(SFT)、强化学习(RLHF)全生命周期有系统性认知
-数据敏锐度: 熟悉自然语言处理(NLP)常用技术,具备大规模数据处理经验(如使用 Spark、Flink、Ray 或类似框架),能从复杂数据中捕捉规律
-学术与前瞻: 紧跟 AI 领域前沿动向,阅读过 Llama、GPT、DeepSeek 等主流模型相关论文者优先
-综合素质: 极强的学习能力与好奇心,面对模糊问题能保持冷静并拆解目标,具备良好的团队协作与沟通影响力
