【贝壳】3d视觉算法工程师(空间理解)(J65435)

社招3年以上技术类-算法

这个世界的运行机制是否是可计算的？世界的复杂性是否唯有用AI的复杂性来应对？人类是否可以造出一台机器让未来就像过去一样历历在目？面对这些未知而又迷人的世界级难题，阿里巴巴旗下高德地图将组建一支卓越的AI队伍向世界模型发起冲击。在这里，你将获得无限制的算力，让想象力在算力的加持下尽情驰骋；在这里，你将和顶级的空间智能专家并肩作战，让专业与专注碰撞出世界模型最精彩的火花；在这里，你将接触到高德积累了20年的海量真实世界数据，让包罗万象的数据发挥它本来应有的价值。一、团队介绍我们是阿里巴巴旗下高德视觉技术中心的具身世界模型团队。这里有自由探索、开放交流的技术氛围，让每个有价值的idea都得到充分的展现和验证。这里有来自国内外顶尖院校毕业的研究员，知名AI项目/论文的作者可能就坐在你身边，让顶尖智力一起碰撞出最美妙的火花。我们是一支兼具学术界和产业界视角的团队，仰望星空，脚踏实地。团队gihub主页：https://github.com/amap-cvlab 二、我们要去哪？ 1、打造可交互、可控制、物理一致的世界模型，突破空间智能技术边界 2、通过世界模型加速物理智能体的进化 3、探索下一代时空基座模型三、岗位职责： 1. 3D动/静态生产：利用三维重建、生成模型、多模态大模型对单图、视频完成动态物体/静态场景重建、生成、编辑，并得到可交互的3D资产与长时序视频； 2. 结合3D表征的视频生成：研发基于动作、轨迹等条件控制的视频生成算法，确保生成内容具备严格的3D几何一致性与物理规律遵循，实现对场景视角、物体交互的精细化控制，为具身智能体提供高保真的虚拟训练环境； 3. 空间推理：赋予模型深度的三维空间理解与物理常识推理能力（如物体可供性、碰撞动力学、场景拓扑），使其能理解场景背后的物理因果，辅助下游的复杂决策与规划； 4. 训练闭环搭建：构建“生成-仿真-评估-优化”的自动化数据闭环，利用生成数据扩充训练集（Data Augmentation），并通过端到端系统的反馈迭代优化世界模型，实现数据飞轮效应； 5. 世界模型构建：结合具身智能、自动驾驶等数据探索空间智能的统一范式，完成环境感知、智能体预测、决策规划等任务并得到未来状态和未来传感器信息，为强化学习提供基座； 6. 产线落地与性能优化：与具身智能、自动驾驶、智能导航等业务协同，完善仿真数据链路，优化模型推理效率与显存占用； 7. 前沿追踪：跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展，保持公司在该领域的技术领先地位。

更新于 2025-12-29北京

图形图像算法工程师-TikTok-筋斗云人才计划

校招A153416

团队介绍：TikTok是一个覆盖150个国家和地区的国际短视频平台，我们希望通过TikTok发现真实、有趣的瞬间，让生活更美好。TikTok 在全球各地设有办公室，全球总部位于洛杉矶和新加坡，办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队，旨在实现TikTok业务的研发工作，搭建及维护业界领先的产品。加入我们，你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景，支持产品在全球赛道上高速发展；也能接触到包括服务架构、基础技术等方向上的技术挑战，保障业务持续高质量、高效率、且安全地为用户服务；同时还能为不同业务场景提供全面的技术解决方案，优化各项产品指标及用户体验。在这里，有大牛带队与大家一同不断探索前沿，突破想象空间。在这里，你的每一行代码都将服务亿万用户。在这里，团队专业且纯粹，合作氛围平等且轻松。目前在北京，上海，杭州、广州、深圳分别开放多个岗位机会。课题背景：图形渲染技术是游戏、影视、AR/VR等多媒体应用的重要基础设施与核心技术。随着短视频、直播、元宇宙等场景的爆发式增长，以及AI生成能力对传统图形管线的冲击，用户对实时场景下，内容更泛化，制作流程的效率提升，高画质渲染呈现的需求也急剧上升。当下的移动端算力又难以满足高画质、个性化、低门槛的UGC创作诉求。随着AI技术更进一步的发展，正逐步推动着图形渲染从"确定性算法驱动"向"概率化智能生成"的迁移，为渲染技术带来了新的可能性。课题挑战： 1、提升渲染上限：传统实时图形渲染框架诞生了近三十年，传统实时渲染框架下的各种技术&工具链已经发展得非常成熟。但随着用户对高质量、高画质的效果内容的需求越来越高，图形渲染的场景、光影复杂度也越来越高，传统的图形光栅化渲染管线越来越难以满足用户对画质效果的需求，在算力更为不足的移动端表现地尤为明显。如何应用AI技术提升渲染性能，是一个充满挑战的课题。 2、减低制作门槛：在用户互动场景中，素材、场景建模的制作成本也变得越来越高昂。用户希望低门槛生成个性化内容，但传统图形渲染技术依赖专业人士建模，门槛极高。如何应用AI技术制作低门槛、个性化资产，同样是一个充满挑战的课题。 3、工作范式革新：在短视频拍摄场景中，传统图形引擎是通过视觉算法、图形渲染算法的结合完成图像视频增强。伴随着人工智能的热潮，AI技术在视频生成领域也有了许多突破性进展。以 Sora、Luma、DreamMachine 为代表的生成式视频模型，正在重构视觉内容生产范式，存在对现有视频处理链路革新的可能性，但也面临许多挑战，如视频一致性、物理仿真正确性、运算复杂度高等等。

更新于 2025-05-26北京

图形图像算法工程师-TikTok-筋斗云人才计划

校招A89989B

团队介绍：TikTok是一个覆盖150个国家和地区的国际短视频平台，我们希望通过TikTok发现真实、有趣的瞬间，让生活更美好。TikTok 在全球各地设有办公室，全球总部位于洛杉矶和新加坡，办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队，旨在实现TikTok业务的研发工作，搭建及维护业界领先的产品。加入我们，你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景，支持产品在全球赛道上高速发展；也能接触到包括服务架构、基础技术等方向上的技术挑战，保障业务持续高质量、高效率、且安全地为用户服务；同时还能为不同业务场景提供全面的技术解决方案，优化各项产品指标及用户体验。在这里，有大牛带队与大家一同不断探索前沿，突破想象空间。在这里，你的每一行代码都将服务亿万用户。在这里，团队专业且纯粹，合作氛围平等且轻松。目前在北京，上海，杭州、广州、深圳分别开放多个岗位机会。课题背景：图形渲染技术是游戏、影视、AR/VR等多媒体应用的重要基础设施与核心技术。随着短视频、直播、元宇宙等场景的爆发式增长，以及AI生成能力对传统图形管线的冲击，用户对实时场景下，内容更泛化，制作流程的效率提升，高画质渲染呈现的需求也急剧上升。当下的移动端算力又难以满足高画质、个性化、低门槛的UGC创作诉求。随着AI技术更进一步的发展，正逐步推动着图形渲染从"确定性算法驱动"向"概率化智能生成"的迁移，为渲染技术带来了新的可能性。课题挑战： 1、提升渲染上限：传统实时图形渲染框架诞生了近三十年，传统实时渲染框架下的各种技术&工具链已经发展得非常成熟。但随着用户对高质量、高画质的效果内容的需求越来越高，图形渲染的场景、光影复杂度也越来越高，传统的图形光栅化渲染管线越来越难以满足用户对画质效果的需求，在算力更为不足的移动端表现地尤为明显。如何应用AI技术提升渲染性能，是一个充满挑战的课题。 2、减低制作门槛：在用户互动场景中，素材、场景建模的制作成本也变得越来越高昂。用户希望低门槛生成个性化内容，但传统图形渲染技术依赖专业人士建模，门槛极高。如何应用AI技术制作低门槛、个性化资产，同样是一个充满挑战的课题。 3、工作范式革新：在短视频拍摄场景中，传统图形引擎是通过视觉算法、图形渲染算法的结合完成图像视频增强。伴随着人工智能的热潮，AI技术在视频生成领域也有了许多突破性进展。以 Sora、Luma、DreamMachine 为代表的生成式视频模型，正在重构视觉内容生产范式，存在对现有视频处理链路革新的可能性，但也面临许多挑战，如视频一致性、物理仿真正确性、运算复杂度高等等。

更新于 2025-05-26上海

AIGC视觉多模态算法工程师

校招通义2026届秋

团队介绍：近年来，以大模型为核心的生成式人工智能技术发展取得了突破性进展，视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年，拥有丰富的学术积累与工程实践经验。过去几年，团队在顶级会议发表论文50余篇，相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地，在多家主流手机厂商中实现深度集成，也成功服务于奥运会、亚运会、春晚等盛会，累计数亿次调用。如果你对研发规模化的AIGC解决方案感兴趣，期望在计算机视觉、图形学与机器学习领域持续创新，推动图像、视频与3D内容创作的普惠化和产业化发展，欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。岗位职责具体职责包括但不限于： 1.负责视觉生成模型的核心理论与前沿进展相关研究，通过算法创新与性能优化，提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发，包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产品开发，包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发，包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式，以及更加高效的多模态生成Scaling方法，包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

更新于 2025-08-07北京|杭州

贝壳3d视觉算法工程师(空间理解)(J65435)

任职要求

工作职责