logo of amap

高德地图高德-生成式AI/世界模型算法工程师/专家-视觉团队

社招全职技术类-算法地点:北京状态:招聘

任职要求


1. 计算机视觉、图形学等相关专业硕士及以上学历;
2. 深入理解世界模型的核心概念和原理,包括但不限于环境建模、动态系统预测、深度强化学习等,能够熟练运用相关理论解决实际问题;
3. 熟悉Unify生成和理解大模型、2D视频生成、3D生成等领域,以及Diffusion和Autoregressive的生成范式,有实际项目经验者优先;
4. 在顶级会议(如CVPRICCV、SIGGRAPH、NeurIPS、RSS、IROS)发表过相关论文者优先;
5. 具备较强的学习能力,能够快速掌握新技术,对新技术充满好奇心,具备高度的自驱力和韧性。

工作职责


岗位介绍:
我们正在寻找一位才华横溢的生成式AI/世界模型算法工程师加入我们的团队,共同探索人工智能的前沿领域,构建下一代智能系统的核心技术。如果你对生成式AI/世界模型有深入的理解和研究,渴望在这一领域大展身手,那么请加入我们!

主要职责:
1. 3D静态生成:负责3D物体/场景生成算法的优化,探索高效的3D生成表示方式,并改进扩散或自回归生成模型,提升单图到3D物体或场景生成的精度与稳定性;
2. 3D动态生成:基于扩散/自回归视频生成基模,并引入3D场景表征和隐式动作表征,实现长视界一致、并且可交互的动态视频生成;
3. 世界模型构建:参与世界模型的前沿技术探索,包括环境建模、状态预测、决策规划等方面,以构建能够准确模拟和理解复杂环境的智能模型。探索空间智能的统一建模范式,包括未来状态预测以及未来动作预测,并构建反馈机制,最终实现自主学习;
4. 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展,保持公司在该领域的技术领先地位。
包括英文材料
OpenCV+
学历+
强化学习+
大模型+
CVPR+
ICCV+
NeurIPS+
相关职位

logo of mi
社招A16207

1、负责机器人多模态大模型的开发,提升机器人对物理世界和人类语言的理解能力,以解决通用场景下的多任务操作问题; 2、优化模型框架和算法组件,利用视觉,语音,本体感知等多模态信息实现在不同应用场景下的功能泛化和长序列动作; 3、深度参与数据构建、模型训练和评测部署,支持模型算法在机器人控制系统中的集成,确保算法的实时性和稳定性; 4、结合生成式AI与多模态技术,探索机器人世界模型在实际场景的落地与应用潜力;

更新于 2025-05-06
logo of amap
社招5年以上技术类-算法

团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。

更新于 2025-09-29
logo of bytedance
社招J9EEP

团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable Oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4、利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。

更新于 2021-07-18
logo of bytedance
社招A281

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2、探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4、利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。

更新于 2021-01-04