贝壳3d视觉算法工程师(空间理解)(J65435)
任职要求
1、具有计算机科学、人工智能、机器学习等相关领域硕士或博士学位 2、精通常见CV任务,包括但不限于检测、分割、分类、OCR、reid等 3、对于主流的多模态大…
工作职责
1、负责多模态空间理解算法的研发工作,包括但不限于激光雷达、图像、视频、文本等多模态数据处理、融合和理解 2、设计和研发多任务统一的大模型系统,包括但不限于语义分割、目标检测、OCR识别、reID等 3、支持算法在XR领域的应用,持续优化空间理解的效果和准确率 4、参与团队合作,与团队共同解决空间智能在房产行业落地的技术问题
这个世界的运行机制是否是可计算的?世界的复杂性是否唯有用AI的复杂性来应对?人类是否可以造出一台机器让未来就像过去一样历历在目?面对这些未知而又迷人的世界级难题,阿里巴巴旗下高德地图将组建一支卓越的AI队伍向世界模型发起冲击。在这里,你将获得无限制的算力,让想象力在算力的加持下尽情驰骋;在这里,你将和顶级的空间智能专家并肩作战,让专业与专注碰撞出世界模型最精彩的火花;在这里,你将接触到高德积累了20年的海量真实世界数据,让包罗万象的数据发挥它本来应有的价值。 一、团队介绍 我们是阿里巴巴旗下高德视觉技术中心的具身世界模型团队。这里有自由探索、开放交流的技术氛围,让每个有价值的idea都得到充分的展现和验证。这里有来自国内外顶尖院校毕业的研究员,知名AI项目/论文的作者可能就坐在你身边,让顶尖智力一起碰撞出最美妙的火花。我们是一支兼具学术界和产业界视角的团队,仰望星空,脚踏实地。 团队gihub主页:https://github.com/amap-cvlab 二、我们要去哪? 1、打造可交互、可控制、物理一致的世界模型,突破空间智能技术边界 2、通过世界模型加速物理智能体的进化 3、探索下一代时空基座模型 三、岗位职责: 1. 3D动/静态生产: 利用三维重建、生成模型、多模态大模型对单图、视频完成动态物体/静态场景重建、生成、编辑,并得到可交互的3D资产与长时序视频; 2. 结合3D表征的视频生成: 研发基于动作、轨迹等条件控制的视频生成算法,确保生成内容具备严格的3D几何一致性与物理规律遵循,实现对场景视角、物体交互的精细化控制,为具身智能体提供高保真的虚拟训练环境; 3. 空间推理: 赋予模型深度的三维空间理解与物理常识推理能力(如物体可供性、碰撞动力学、场景拓扑),使其能理解场景背后的物理因果,辅助下游的复杂决策与规划; 4. 训练闭环搭建: 构建“生成-仿真-评估-优化”的自动化数据闭环,利用生成数据扩充训练集(Data Augmentation),并通过端到端系统的反馈迭代优化世界模型,实现数据飞轮效应; 5. 世界模型构建: 结合具身智能、自动驾驶等数据探索空间智能的统一范式,完成环境感知、智能体预测、决策规划等任务并得到未来状态和未来传感器信息,为强化学习提供基座; 6. 产线落地与性能优化: 与具身智能、自动驾驶、智能导航等业务协同,完善仿真数据链路,优化模型推理效率与显存占用; 7. 前沿追踪: 跟踪学术界和工业界在生成式AI/世界模型相关领域的最新进展,保持公司在该领域的技术领先地位。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 课题背景: 图形渲染技术是游戏、影视、AR/VR等多媒体应用的重要基础设施与核心技术。随着短视频、直播、元宇宙等场景的爆发式增长,以及AI生成能力对传统图形管线的冲击,用户对实时场景下,内容更泛化,制作流程的效率提升,高画质渲染呈现的需求也急剧上升。当下的移动端算力又难以满足高画质、个性化、低门槛的UGC创作诉求。随着AI技术更进一步的发展,正逐步推动着图形渲染从"确定性算法驱动"向"概率化智能生成"的迁移,为渲染技术带来了新的可能性。 课题挑战: 1、提升渲染上限:传统实时图形渲染框架诞生了近三十年,传统实时渲染框架下的各种技术&工具链已经发展得非常成熟。但随着用户对高质量、高画质的效果内容的需求越来越高,图形渲染的场景、光影复杂度也越来越高,传统的图形光栅化渲染管线越来越难以满足用户对画质效果的需求,在算力更为不足的移动端表现地尤为明显。如何应用AI技术提升渲染性能,是一个充满挑战的课题。 2、减低制作门槛:在用户互动场景中,素材、场景建模的制作成本也变得越来越高昂。用户希望低门槛生成个性化内容,但传统图形渲染技术依赖专业人士建模,门槛极高。如何应用AI技术制作低门槛、个性化资产,同样是一个充满挑战的课题。 3、工作范式革新:在短视频拍摄场景中,传统图形引擎是通过视觉算法、图形渲染算法的结合完成图像视频增强。伴随着人工智能的热潮,AI技术在视频生成领域也有了许多突破性进展。以 Sora、Luma、DreamMachine 为代表的生成式视频模型,正在重构视觉内容生产范式,存在对现有视频处理链路革新的可能性,但也面临许多挑战,如视频一致性、物理仿真正确性、运算复杂度高等等。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 课题背景: 图形渲染技术是游戏、影视、AR/VR等多媒体应用的重要基础设施与核心技术。随着短视频、直播、元宇宙等场景的爆发式增长,以及AI生成能力对传统图形管线的冲击,用户对实时场景下,内容更泛化,制作流程的效率提升,高画质渲染呈现的需求也急剧上升。当下的移动端算力又难以满足高画质、个性化、低门槛的UGC创作诉求。随着AI技术更进一步的发展,正逐步推动着图形渲染从"确定性算法驱动"向"概率化智能生成"的迁移,为渲染技术带来了新的可能性。 课题挑战: 1、提升渲染上限:传统实时图形渲染框架诞生了近三十年,传统实时渲染框架下的各种技术&工具链已经发展得非常成熟。但随着用户对高质量、高画质的效果内容的需求越来越高,图形渲染的场景、光影复杂度也越来越高,传统的图形光栅化渲染管线越来越难以满足用户对画质效果的需求,在算力更为不足的移动端表现地尤为明显。如何应用AI技术提升渲染性能,是一个充满挑战的课题。 2、减低制作门槛:在用户互动场景中,素材、场景建模的制作成本也变得越来越高昂。用户希望低门槛生成个性化内容,但传统图形渲染技术依赖专业人士建模,门槛极高。如何应用AI技术制作低门槛、个性化资产,同样是一个充满挑战的课题。 3、工作范式革新:在短视频拍摄场景中,传统图形引擎是通过视觉算法、图形渲染算法的结合完成图像视频增强。伴随着人工智能的热潮,AI技术在视频生成领域也有了许多突破性进展。以 Sora、Luma、DreamMachine 为代表的生成式视频模型,正在重构视觉内容生产范式,存在对现有视频处理链路革新的可能性,但也面临许多挑战,如视频一致性、物理仿真正确性、运算复杂度高等等。
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。