加入我们

多模态大模型视频理解算法研发工程师(J89977)

申请职位
| 社会招聘 | 北京市,上海市,深圳市
发布时间:2026-05-01

工作职责:

-前沿算法研发: 负责多模态大模型在视频理解方向的算法研究与开发,紧跟CVPR, ICCV, NeurIPS等顶会的最新进展,探索和实现世界领先的(SOTA)视频理解模型。
-核心任务攻关: 聚焦于一项或多项核心视频理解任务,包括但不限于:
视频问答 (Video QA) & 对话: 实现模型对视频内容的深度推理和对话能力。
视频描述/摘要生成 (Video Captioning/Summarization): 让模型能用自然语言精准描述或概括视频内容。
时序行为定位与识别 (Temporal Action Localization & Recognition): 精准识别视频中人物的行为及其发生的时间段。
视频主题/事件检测 (Video Topic/Event Detection): 对长视频进行结构化分析,理解其核心主题与关键事件。
-大规模数据构建: 负责视频理解所需的大规模、高质量多模态数据集的构建,包括数据采集、清洗、标注和管理策略的制定与执行。
-大规模训练: 负责视频理解大模型的分布式训练、微调和性能优化,解决训练过程中的效率和收敛性挑战。
-技术落地与创新: 与业务团队紧密合作,推动算法在产品中的实际应用与效果验证,并从中提炼出新的算法迭代方向。

任职要求:

-教育背景: 计算机科学、人工智能、电子信息、自动化或相关领域的硕士或博士学历。
-专业经验:
具备扎实的机器学习、深度学习理论基础,对Transformer、ViT、CNN、RNN等模型有深入理解。
精通Python编程,并熟练掌握至少一种主流深度学习框架。
在以下至少一个领域有深入的研究或项目经验:
视频理解 (Video Understanding): 如行为识别、视频分类、时序定位等。
多模态学习 (Multimodal Learning): 熟悉CLIP、ALIGN等多模态预训练模型,了解跨模态融合、对齐等技术。
大语言模型 (LLM) / 视觉语言模型 (VLM): 有LLM或VLM的微调、开发经验。
-科研能力: 在CVPR, ICCV, ECCV, NeurIPS, ICLR, AAAI等顶级人工智能会议/期刊上发表过相关论文者优先。
-工程能力: 具备处理大规模数据集的经验,熟悉Linux开发环境和Git等协作工具。
-综合素质: 具备优秀的分析和解决问题的能力,良好的沟通能力和团队合作精神,对前沿技术有强烈的热情和探索欲。