高德地图高德-多模态大模型算法工程师/专家-内容理解和AIGC生成方向
任职要求
1. 硕士及以上学历,在深度学习、计算机视觉、自然语言处理等领域具备扎实的基础,掌握领域内的最新技术进展; 2. 良好的团队合作精神和沟通能力,对先进技术的探索具备热情; 3. 在人工智能顶级会议(NeurIPS/CVPR/ICCV/ACL/EMNLP等)或期刊上发表过相关论文; 4. 知名国际比赛获得Top3名次。
工作职责
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包含但不限于: 1. 视觉理解任务的技术探索,要求对视觉基础任务有深入的理解,做好在商品理解、详情页的文图内容、开放图片识别等公司核心业务上的落地; 2. 多模态大模型的技术探索,要求对多模态大模型训练、文图跨模态对齐等有深入实践,做好多模态大模型的能力构建和应用; 3. 追踪领域前沿工作,沉淀技术,投稿领域顶级会议。
负责图像、视频内容理解相关的大模型研发工作,包括但不限于视觉描述生成(Video Caption)、视觉问答(VQA)、多模态大模型(MLLM)等技术,通过内容理解相关算法在业务中的探索与应用,解决实际业务问题;
围绕高德的核心业务场景,研究大模型与推荐结合提升业务效果并落地,不限于LLM、多模态大模型SFT、RLHF、多模态理解、内容表征、推荐算法、行为序列建模、搜索算法。 团队介绍: 团队由国内外知名高校及主流互联网企业的资深专家组成,在顶尖期刊(如KDD、NeurIPS、ICLR、ICML、AAAI等)发表过多篇论文,是国内理论与应用实践相结合、应用算法创新的顶尖和超一流团队。
我们正在寻找一位充满激情的多模态算法专家,加入我们的前沿AI团队。你将专注于构建和训练先进的视觉语言大模型(Multimodal Large Models),推动技术在图像/视频内容理解与生成领域的创新。 【职位描述】 1.核心研发:负责视觉语言大模型的核心算法研发,主攻图像/视频描述生成 (Image/Video Captioning)、视觉问答 (VQA) 等关键任务。 2.模型训练:主导或深度参与多模态大模型的完整训练流程,包括数据构建、模型架构设计(如 Vision Encoder + LLM)、预训练与指令微调 (Instruction-Tuning)。 3.技术落地:负责模型性能的评估、优化与迭代,探索量化、蒸馏等技术,并推动模型在实际业务场景中的部署与应用。
1、参与电商多模态大模型(MLLMs)的持续预训练和指令微调(SFT),开发精准的商品图谱、用户意图理解、跨模态检索等核心能力,赋能搜索、推荐等业务; 2、负责多模态生成算法(如Diffusion Models, VAEs等)的研发与创新,致力于解决生成内容的质量、多样性、可控性、可编辑性及采样效率等前沿问题; 3、基于大模型构建文本/图像/视频多模态创作引擎,并推动其在电商业务场景的产品化落地,包括但不限于背景替换、虚拟试衣、图生视频、海报生成等创新应用; 4、通过DPO/PPO等强化学习算法,迭代Reward Model以指导多模态素材生成,引导模型生成更符合人类偏好、审美标准及业务目标的多模态内容,最终提升用户体验和商品转化率。