高德地图高德-多模态内容理解算法工程师/专家-视觉技术中心
任职要求
计算机、电子信息、数学等相关专业,硕士及以上学历 在计算机视觉、多模态理解方面有扎实的研究基础,熟悉主流模型和算法,如CLIP,BLIP,LLaVA,Qwen-VL,video-llama等,有实际项目落地经验者优先; 熟悉深度学习框架,如TensorFlow或PyTorch 有较强的动手能力,熟练掌握C++/Python编程语言,深刻理解计算机原理,有良好的数据结构和算法基础 具备良好的逻辑分析能力、学习能力、沟通能力及团队协作精神 具有CVPR/ICCV/ECCV/NIPS等相关顶会论文者优先
工作职责
负责图像、视频内容理解相关的大模型研发工作,包括但不限于视觉描述生成(Video Caption)、视觉问答(VQA)、多模态大模型(MLLM)等技术,通过内容理解相关算法在业务中的探索与应用,解决实际业务问题;
1、负责快手短视频多模态内容理解工作,应用计算机视觉、NLP、多模态融合等技术,提升短视频内容体系建设、推荐、搜索的效果和体验; 2、基于多模态模型在下游业务上的应用,包括并不限于多模态分类、标签、caption等文本生成等; 3、负责计算机多模态理解方向前沿问题的研究,参与建设并持续保持部门在多模态业界的技术先进性,保持创新的同时将业界SOTA模型持续优化并落地至线上获得收益。
1、负责快手多媒体内容理解工作,应用计算机视觉、NLP、多模态融合等技术,提升短视频/直播内容体系建设、推荐、搜索的效果和体验; 2、负责快手多媒体相关的内容理解、语义理解的相关算法的研发,包括但不限于视频多分类、视频多标签、视频多模态embedding学习; 3、负责计算机多模态方向前沿问题的研究,参与建设并持续保持部门在多模态业界的技术先进性,保持创新的同时将业界SOTA模型持续优化并落地至线上获得收益。
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 团队主要聚焦多模态大模型技术在端到端自动驾驶的应用,我们期待你的工作将覆盖以下至少一个技术方向即可: 1. 在端到端自动驾驶、多模态大模型的训练及调优、BEV感知、基于深度学习/强化学习的规划控制、RLHF、驾驶场景视频生成等领域具备丰富且有独创性的研究经历。 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等。 3. 了解大模型模型的训练/微调/推理加速方法,包括但不限于模型结构调优、训练效率提升、高效低成本微调、Muti-token推理,模型部署加速等。 4. 参与自动驾驶系统中机器学习算法的研究、开发与优化,包括但不限于深度学习算法在端到端感知大模型、规控大模型、视觉语言大模型等方面的应用。 5. 负责收集、整理和分析自动驾驶相关的数据集,进行数据预处理和标注,以提高模型的准确性和泛化能力。 6. 设计和实现端到端自动驾驶模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性。
1、参与电商多模态大模型(MLLMs)的持续预训练和指令微调(SFT),开发精准的商品图谱、用户意图理解、跨模态检索等核心能力,赋能搜索、推荐等业务; 2、负责多模态生成算法(如Diffusion Models, VAEs等)的研发与创新,致力于解决生成内容的质量、多样性、可控性、可编辑性及采样效率等前沿问题; 3、基于大模型构建文本/图像/视频多模态创作引擎,并推动其在电商业务场景的产品化落地,包括但不限于背景替换、虚拟试衣、图生视频、海报生成等创新应用; 4、通过DPO/PPO等强化学习算法,迭代Reward Model以指导多模态素材生成,引导模型生成更符合人类偏好、审美标准及业务目标的多模态内容,最终提升用户体验和商品转化率。