工作职责:
-前沿算法研发:负责多模态大模型在视频理解方向的算法研究与开发,紧跟CVPR, ICCV, NeurIPS等顶会的最新进展,探索和实现世界领先的(SOTA)视频理解模型
-核心任务攻关: 聚焦于一项或多项核心视频理解任务,包括但不限于
-视频问答 (Video QA) & 对话: 实现模型对视频内容的深度推理和对话能力
-视频描述/摘要生成 (Video Captioning/Summarization):让模型能用自然语言精准描述或概括视频内容
-时序行为定位与识别 (Temporal Action Localization & Recognition): 精准识别视频中人物的行为及其发生的时间段
-视频主题/事件检测 (Video Topic/Event Detection): 对长视频进行结构化分析,理解其核心主题与关键事件
-大规模数据构建: 负责视频理解所需的大规模、高质量多模态数据集的构建,包括数据采集、清洗、标注和管理策略的制定与执行
-大规模训练:负责视频理解大模型的分布式训练、微调和性能优化,解决训练过程中的效率和收敛性挑战
-技术落地与创新:与业务团队紧密合作,推动算法在产品中的实际应用与效果验证,并从中提炼出新的算法迭代方向
任职要求:
-教育背景:计算机科学、人工智能、电子信息、自动化或相关领域的本科及以上学历
-专业经验
-具备扎实的机器学习、深度学习理论基础,对Transformer、ViT、CNN、RNN等模型有深入理解
-精通Python编程,并熟练掌握至少一种主流深度学习框架
-在以下至少一个领域有深入的研究或项目经验
-视频理解 (Video Understanding): 如行为识别、视频分类、时序定位等
-多模态学习 (Multimodal Learning): 熟悉CLIP、ALIGN等多模态预训练模型,了解跨模态融合、对齐等技术
-大语言模型 (LLM) / 视觉语言模型 (VLM): 有LLM或VLM的微调、开发经验
-科研能力:在CVPR, ICCV, ECCV, NeurIPS, ICLR, AAAI等顶级人工智能会议/期刊上发表过相关论文者优先
-工程能力:具备处理大规模数据集的经验,熟悉Linux开发环境和Git等协作工具
-综合素质:具备优秀的分析和解决问题的能力,良好的沟通能力和团队合作精神,对前沿技术有强烈的热情和探索欲
