安克创新多模态世界模型算法工程师-具身智能方向(北京)
任职要求
1. 硕士及以上学历,计算机、电子、数学等相关专业; 2. 在计算机视觉、多模态大模型等一个或多个领域有较深入的研究者; 3. 具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题,有自主探索解决方案的能力者; 4. 具有良好的沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新技术,推进技术进步。 加分项 1. 具有优秀的基础算法、扎实的机器学习基础,熟悉CV、…
工作职责
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2. 探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2. 探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2.探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页: https://github.com/amap-cvlab 为何加入我们? 1. 挑战业界顶尖难题: 处理百亿级位置数据,攻克动态世界中海量POI的实时、精准感知与理解,定义未来地图的“AI之眼”。 2. 驱动国民级应用创新: 你的技术将直接应用于高德地图数亿用户依赖的扫街榜等核心功能,实现从技术突破到产品颠覆的全流程落地。 3. 置身前沿技术浪潮: 在三维地图、世界模型、具身智能等前沿领域进行深度探索与研发。 4. 预研与业务深度结合:在这里,你将同时接触到面向未来的技术预研和支撑亿级用户的业务算法。我们提供从0到1的创新探索环境,也看重从1到N的规模化落地能力。 职位描述: 我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术,从海量街景图片与视频中自动发现、识别与更新地图POI信息,提升地图数据的鲜度、广度与精度,为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性,你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。 主要职责: 1. 前瞻性模型预研与业务驱动研发:探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型(VLM),重点攻克POI变化发现、细粒度属性理解等关键课题,并将创新技术转化为实际业务解决方案。 2. 端到端业务落地与闭环优化: 主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。 3. 前沿技术跟踪与创新: 持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展,探索技术边界发表高质量论文,实现空间感知理解的学术突破,持续迭代核心算法,达到业界sota。