工作职责:
- 基于多模态大模型(如Qwen-VL、InternVL等)设计面向自动驾驶的语义理解架构,实现红绿灯状态识别、箭头灯语义解析、交通标志OCR与语义理解等任务的性能跃升;
- 参与将现有基于CNN的传统感知模型向VLM架构迁移,通过知识蒸馏、高效微调等技术,在保持模型轻量化的同时大幅提升复杂场景(极端天气、遮挡、罕见标志)的识别准确率;
- 构建基于VLM的自动化数据标注与质量验证 pipeline,利用大模型的零样本/少样本能力挖掘长尾Corner Case,建立"数据挖掘-模型迭代-线上验证"的闭环优化机制;
- 探索将VLM语义理解能力与端到端驾驶系统融合,实现从像素级感知到高层语义推理的直接映射,提升决策规划的可解释性。
任职资格:
- 熟练使用AI Coding进行高效开发,能够快速借助AI理解VLM代码库、实现复杂的多模态数据 pipeline、调试分布式训练脚本,并具备对AI生成代码的架构审查与性能优化能力;
- 熟悉VLM的基本架构,了解CLIP对比学习、指令微调、RLHF在视觉任务中的应用;
- 扎实的Python基础,精通PyTorch,熟悉HuggingFace Transformers库,具备多机多卡训练或模型量化部署
- 熟悉计算机视觉中的目标检测、图像分类、语义分割,对红绿灯识别、交通标志检测等自动驾驶语义任务有基本了解;
- 有VLM/MLLM在自动驾驶或机器人场景下的实际项目经验者优先;
- 掌握多模态数据工程(Image-Text Pair构建、Data Filtering、Instruction Data Generation)者优先;
- 在CVPR、ECCV、NeurIPS等顶会发表过多模态学习或自动驾驶相关论文者优先