工作职责:
1. 负责多模态大模型的算法研发与迭代,覆盖图文、视频、语音、3D等多模态融合理解与生成;
2. 研究跨模态对齐、对比学习、扩散模型、视频生成、图像编辑、3D生成、风格迁移等前沿技术;
3. 参与多模态数据pipeline建设、评测体系设计与业务落地,推动模型在搜索、推荐、AIGC、健康、自动驾驶、网盘文库、视频理解、解题等核心场景中的应用;
4. 研发方向包括但不限于:视觉感知算法、多模态理解模型、图像/视频生成、模型压缩轻量化、文档多模态等;
5. 建设多模态数据管线,优化模型训练与推理效率,完成算法模型的训练、优化和部署。
任职资格:
1. 博士优先,计算机、模式识别、人工智能、电子工程、数学等相关专业硕士及以上学历;
2. 掌握计算机视觉、图像处理、深度学习等基础理论,在多模态模型训练、文档多模态、开放域目标检测、模型压缩小型化等方向有深入研究;
3. 熟悉扩散模型、多模态大模型(如CLIP、Flamingo、Qwen-VL等),对图像生成、视频生成、3D生成、数字人等方向有浓厚兴趣及项目经验;
4. 熟练掌握Python及PyTorch/PaddlePaddle/TensorFlow等深度学习框架,有较强论文复现能力;
5. 有多模态预训练、蒸馏、视频生成、模型轻量化等经验者优先;
6. 在国际顶会(CVPR、ICCV、ECCV、NeurIPS、ICML、AAAI等)或期刊发表过论文,或有开源项目贡献者优先;
7. 具备良好的团队合作精神、沟通能力与问题解决能力,热爱技术,追求创新。
招聘部门:电商事业部、健康事业部、PSIG策略部、一见产品部、应用模型技术部