昆仑芯官方招聘

工作职责:

-前沿算法研发：负责多模态大模型在视频理解方向的算法研究与开发，紧跟CVPR, ICCV, NeurIPS等顶会的最新进展，探索和实现世界领先的（SOTA）视频理解模型。
-核心任务攻关：聚焦于一项或多项核心视频理解任务，包括但不限于：
视频问答 (Video QA) & 对话：实现模型对视频内容的深度推理和对话能力。
视频描述/摘要生成 (Video Captioning/Summarization)：让模型能用自然语言精准描述或概括视频内容。
时序行为定位与识别 (Temporal Action Localization & Recognition)：精准识别视频中人物的行为及其发生的时间段。
视频主题/事件检测 (Video Topic/Event Detection)：对长视频进行结构化分析，理解其核心主题与关键事件。
-大规模数据构建：负责视频理解所需的大规模、高质量多模态数据集的构建，包括数据采集、清洗、标注和管理策略的制定与执行。
-大规模训练：负责视频理解大模型的分布式训练、微调和性能优化，解决训练过程中的效率和收敛性挑战。
-技术落地与创新：与业务团队紧密合作，推动算法在产品中的实际应用与效果验证，并从中提炼出新的算法迭代方向。

任职要求:

-教育背景：计算机科学、人工智能、电子信息、自动化或相关领域的硕士或博士学历。
-专业经验：
具备扎实的机器学习、深度学习理论基础，对Transformer、ViT、CNN、RNN等模型有深入理解。
精通Python编程，并熟练掌握至少一种主流深度学习框架。
在以下至少一个领域有深入的研究或项目经验：
视频理解 (Video Understanding)：如行为识别、视频分类、时序定位等。
多模态学习 (Multimodal Learning)：熟悉CLIP、ALIGN等多模态预训练模型，了解跨模态融合、对齐等技术。
大语言模型 (LLM) / 视觉语言模型 (VLM)：有LLM或VLM的微调、开发经验。
-科研能力：在CVPR, ICCV, ECCV, NeurIPS, ICLR, AAAI等顶级人工智能会议/期刊上发表过相关论文者优先。
-工程能力：具备处理大规模数据集的经验，熟悉Linux开发环境和Git等协作工具。
-综合素质：具备优秀的分析和解决问题的能力，良好的沟通能力和团队合作精神，对前沿技术有强烈的热情和探索欲。

加入我们

多模态大模型视频理解算法研发工程师(J89977)

工作职责:

任职要求: