通义研究型实习生-3D人的多模态驱动模型
实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘
任职要求
1. 博士/硕士研究生在读,计算机、数学等相关专业优先。
2. 有扎实的3D视觉、多模态大模型理论基础,对3D交互数字人、3D对话数字人等相关技术研究感兴趣。
3. 在计算…登录查看完整任职要求
微信扫码,1秒登录
工作职责
3D数字人技术作为一项前沿科技,在娱乐、教育、医疗等多个领域展现出巨大的应用潜力。近年来,视觉语言大模型的突破性进展,为3D数字人的多模态交互提供了新的契机。我们希望研发新的模型、算法,利用多模态基础模型的跨模态信息处理能力,提升了3D数字人和用户交互的真实感和沉浸感,从简单的命令响应式交互向情感计算、意图理解等高级功能转变。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
相关职位
实习通义研究型实习生
本项目聚焦于多模态交互数字人技术的前沿探索,旨在基于对话双方的多模态上下文(包括文本、语音、视频等),实现3D数字人表情与肢体动作的实时生成与动态驱动,显著提升数字人的拟人性、情感表达能力与临场感。研究成果将支撑虚拟主播、情感陪伴、沉浸式人机交互等创新应用场景。
更新于 2025-11-24杭州
实习通义研究型实习生
3D数字人的感知、重建与生成技术是多模态交互数字人、全息通讯、虚拟主播、情感陪伴等前沿应用的核心支撑。本项目旨在推动如下课题的技术攻关: 1、3D数字人感知研究: 聚焦于利用多模态视觉语言模型、视频生成等先进方法,从单张图像或视频中高效、精准地提取数字人的表情与人体参数,提升数字人感知系统的准确度与鲁棒性。 2、3D数字人重建与生成研究: 致力于结合文本、图像、视频等多模态数据与生成式大模型技术,推动从单图或多视角图像中重建并生成高质量3D数字人(如高斯泼溅、三维网格等)技术的发展,增强模型的写实性与表现力。同时探索实时多模态驱动与渲染技术,构建低延迟、高真实感的沉浸式交互体验,为多模态交互数字人、全息通讯、虚拟主播、情感陪伴等场景提供核心能力。
更新于 2025-11-18杭州
实习通义研究型实习生
本项目将探索基于单张图像或稀疏视角图像构建高保真,可交互的3D高斯(3D Gaussian Splatting)数字人,支持大角度相机视角切换与大幅度身体姿态变化,保持几何一致性与渲染稳定性。所生成的3D高斯数字人支持多模态实时驱动,实现自然流畅的面部表情和肢体驱动,打造低延迟、高真实感的沉浸式交互体验,为虚拟主播、远程会议、教育陪练、情感陪伴等高价值应用场景提供技术支撑。
更新于 2025-11-12杭州