logo of amap

高德地图大模型应用算法工程师-多模态多Agent方向-APP平台业务

实习兼职高德地图2026届春季校园招聘地点:北京状态:招聘

任职要求


1、计算机、通信、自动化、电子、数学、统计等理工科专业,硕士及以上学历;
2、具备扎实的PythonC++或者Java等编程基础,熟练使用PyTorch/Tensorflow至少一种主流深度学习框架;
3、具备扎实的NLU/NLG相关NLP技术基础;熟悉ChatBot、文本摘要、机器翻译、问答系统等至少一种NLP任务;熟悉主流LLM架构,对于基于LLM的Pretrain、Fine-tuning、Alignment、RAG、Test-time Scaling等至少一个方向有比较深入的研究和实践;
4、具备扎实的AI MAS(Multi-Agent System)相关的感知、规划、记忆、工具调用、协同等技术基础,有实际应用和落地经验优先;
5、熟悉主流MLLM(多模态大语言模型)的技术架构;在LVM(Large Visual Model)、Image to Text/Image Caption、VQA、多模态对话、多模态翻译等多模态理解和生成技术至少一种有比较深入的研究和实践;
6、有较强的学习能力,对新事物保有好奇心,并能快速适应新环境;有良好的沟通能力和团队协同能力;敢于挑战不确定性,勇于创新。

工作职责


团队介绍:
高德地图为您导航,前方路口请“左转”,我们是高德地图交通&行中智能团队。
我们的使命是基于高德海量高质的数据,最前沿的AI算法,最可靠的工程架构,打造有温度、有惊喜、科技感十足的智能出行体验;
在这里,我们一起建设应对超大业务规模,超高业务复杂度的高效、可靠、鲁棒的技术架构;一起用最前沿的机器学习、深度学习、AI算法探索导航领域最具挑战性的行业难题;一起用最尖端的AIGC、LLM/LVM、多模态理解与生成、Agent等技术,打造全新的出行交互体验;
团队简单直接、有情有义、温暖有爱,欢迎加入,一起用技术驱动创新,为海量用户护航!
职位职责包括但不限于:
基于前沿的AIGC、LLM/LVM、MLLM多模态理解与生成、AI Agent等技术,实现高德地图导航过程全场景、全时空、多模态的内容理解/生成以及智能交互,不断提升用户的出行质量和体验。
包括英文材料
学历+
Python+
C+++
Java+
PyTorch+
TensorFlow+
深度学习+
NLP+
大模型+
RAG+
AI agent+
系统设计+
相关职位

logo of meituan
实习核心本地商业-业

【课题说明】 聚焦多模态数字人核心技术,以直播为应用场景,旨在突破其在真实感、智能交互、情感表达及多模态信息处理上的瓶颈。研发能自主执行复杂运营任务、展现丰富情感与高表现力,并与用户进行深度多模态内容互动的下一代数字人,革新直播行业运营模式与用户体验。 【建议研究方向】 1.智能运营Agent:研究数字人作为智能Agent,在直播前(策划、脚本、货盘)、中(场控、问答、促单)、后(复盘、再创)全流程承担运营职能。重点攻克基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效能。 2.高表现力数字人生成驱动:探索高真实感、个性化数字人形象(外观、声音、风格)的快速生成与定制。重点研究大模型驱动的、与语音同步且富含细腻情感的表情、口型、动作的实时驱动,增强直播感染力。 3.多模态内容生成和交互:研究理解用户多模态输入(文、语、图、视频)并进行深度互动。探索数字人自主生成动态多模态内容,丰富直播呈现,提升用户参与感。

更新于 2025-05-27
logo of meituan
实习核心本地商业-业

【课题说明】 在广告场景中,优质精美的创意对用户的行为决策有显著正向影响,传统模式下商用级创意内容的制作门槛高、生产周期长,长尾商家通常难以负担其成本,而头腰部商家也难以做到个性化、高时效性的创意生产投放。 本课题借助大模型的音、视、图、文等多模态理解、思考与生成能力,结合用户画像、商户/品特征、热点趋势等信息,探索实现低成本、个性化的商用级创意内容(如图文笔记、长视频)的生成技术。 【建议研究方向】 1.多模态深度思考:设计与实现多模态深度思考方案,优化模型对多源异构信息进行抽取筛选、加工整合、衍生创作的能力,提升创意内容生成的质量与多样性。 2.开放问题的强化学习:针对无标准答案的开放问题(如笔记生成、剧本创作、素材选取等),设计与实现适配的奖励机制与策略,通过强化学习提升模型能力。 3.创意生产Agent:参考人工生产中的不同角色分工合作流程,设计与实现创意生产的多agent协作框架,并通过线上效果反馈机制,闭环提升生产的效率与质量。

更新于 2025-05-27
logo of amap
社招2年以上技术类-算法

探索下一代多模态出行体验; 基于全双工多模态agent,构建人和环境的全新交互形态。

更新于 2025-09-15
logo of tencent
社招TEG技术

1.多模态智能体研发:研发大数据领域多模态智能体,融合表格、文本、图像、视频、语音、结构化数据等多源信息,构建感知-推理-决策-交互一体化智能系统,并应用于智能决策,人机协作场景; 2.跨模态理解与生成:设计跨模态对齐与融合算法,提升智能体对复杂语义(如视觉问答、图文生成、视频摘要)的理解与生成能力,开发多模态检索增强技术。

更新于 2025-06-04