logo of tongyi

通义研究型实习生- 多视角一致性3D高斯数字人生成技术

实习兼职通义研究型实习生地点:杭州状态:招聘

任职要求


1. 计算机相关专业博士/硕士研究生,有激情、责任心强,具备良好的团队合作、沟通能力。
2. 有扎实的多模态或3D算法基础, 对3DGS、4DGS, 3D数字人生成及驱动相关技术研究感兴…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


本项目将探索基于单张图像或稀疏视角图像构建高保真,可交互的3D高斯(3D Gaussian Splatting)数字人,支持大角度相机视角切换与大幅度身体姿态变化,保持几何一致性与渲染稳定性。所生成的3D高斯数字人支持多模态实时驱动,实现自然流畅的面部表情和肢体驱动,打造低延迟、高真实感的沉浸式交互体验,为虚拟主播、远程会议、教育陪练、情感陪伴等高价值应用场景提供技术支撑。
包括英文材料
算法+
数字人+
CVPR+
还有更多 •••
相关职位

logo of tongyi
实习通义研究型实习生

3D数字人的感知、重建与生成技术是多模态交互数字人、全息通讯、虚拟主播、情感陪伴等前沿应用的核心支撑。本项目旨在推动如下课题的技术攻关: 1、3D数字人感知研究: 聚焦于利用多模态视觉语言模型、视频生成等先进方法,从单张图像或视频中高效、精准地提取数字人的表情与人体参数,提升数字人感知系统的准确度与鲁棒性。 2、3D数字人重建与生成研究: 致力于结合文本、图像、视频等多模态数据与生成式大模型技术,推动从单图或多视角图像中重建并生成高质量3D数字人(如高斯泼溅、三维网格等)技术的发展,增强模型的写实性与表现力。同时探索实时多模态驱动与渲染技术,构建低延迟、高真实感的沉浸式交互体验,为多模态交互数字人、全息通讯、虚拟主播、情感陪伴等场景提供核心能力。

更新于 2025-11-18杭州
logo of tongyi
实习通义研究型实习生

NeRF&3D GS是很有潜力的新兴3D重建技术,这几年获得非常大的关注,有非常多的进展,但是实时训练和渲染一直是难以克服的问题。本项目拟通过快速、泛化NeRF、3DGS等方法,基于多视角图像的输入,在秒级时间内完内物体、场景重建和新视角图像渲染。

更新于 2024-11-14北京|杭州
logo of tongyi
实习通义研究型实习生

专注于多模态通用运动表征技术的研究,具体职责包括: 1、构建一个多模态大模型框架,能够对现有多媒体素材中运动信息进行学习,输出在特定类目/物品在指定环境下运动规律的个性化表征; 2、基于上述运动表征,能够恢复、迁移到指定类目及场景下的运动效果,生成对应的视频素材; 3、模型能够拓展到通用物体场景,包含刚性/非刚性物体、被动/主动运动物体、相机视角变化/主体运动; 4、负责算法研发过程中的数据构建工作。

更新于 2025-05-08北京|杭州
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 多模态模型在图像生成、文本生成、语音合成等多个领域取得了显著进展。然而,现有的多模态模型往往侧重于单一任务,如生成任务或理解任务,缺乏在生成和理解之间建立有效互动的机制。这种割裂导致了模型在处理复杂任务时的局限性,例如生成高质量的图像或文本时缺乏丰富的语义信息,而在理解和推理任务中又难以捕捉到低层次的视觉细节。 此外,当前最新的自监督学习(如SD-DiT,Return of Unconditional Generation)和一些生成模型的研究(如Representation Alignment for Generation)表明,生成任务和理解任务之间存在互补关系。生成任务能够提供低层次的视觉细节,有助于提高表示学习的质量;而理解任务则能够提供高层次的语义信息,有助于生成模型生成更具意义的内容。因此,构建一个能够同时处理生成和理解任务的统一模型,对于推动多模态模型的发展具有重要意义。 技术价值 多模态生成与理解的互补:通过将生成任务与理解任务相结合,可以生成更具语义丰富性和视觉细节的高质量图像和文本,满足更多应用场景的需求。 提升表示学习质量:生成任务提供的低层次视觉细节可以增强表示学习的质量,提高模型在理解和推理任务中的表现。 创新研究方法:探索生成任务和理解任务之间的相互作用机制,为多模态模型的理论研究提供新的视角和方法。 业务价值 提升用户体验:在探一探和支小宝等多模态多任务耦合的复杂场景中提升性能,改善用户留存。 拓展应用场景:通过统一模型和更高性能有助于探索更多复杂业务落地。

北京