通义研究型实习生-多模态交互3D数字人的感知、重建及生成技术
实习兼职通义研究型实习生地点:杭州状态:招聘
任职要求
1、全日制在读博士或硕士研究生,计算机、人工智能、图形学等相关专业背景优先。 2、具备扎实的机器学习与深度学习理论基础,熟练掌握至少一种主流深度学习编程框架(如PyTorch、TensorFlow等),具备良好的代码实现能力,并持续保持对前沿技术的探索热情。 3、在计算机视觉、图形学等领域顶级会议或期刊(如CVPR、ICCV、EC…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
3D数字人的感知、重建与生成技术是多模态交互数字人、全息通讯、虚拟主播、情感陪伴等前沿应用的核心支撑。本项目旨在推动如下课题的技术攻关: 1、3D数字人感知研究: 聚焦于利用多模态视觉语言模型、视频生成等先进方法,从单张图像或视频中高效、精准地提取数字人的表情与人体参数,提升数字人感知系统的准确度与鲁棒性。 2、3D数字人重建与生成研究: 致力于结合文本、图像、视频等多模态数据与生成式大模型技术,推动从单图或多视角图像中重建并生成高质量3D数字人(如高斯泼溅、三维网格等)技术的发展,增强模型的写实性与表现力。同时探索实时多模态驱动与渲染技术,构建低延迟、高真实感的沉浸式交互体验,为多模态交互数字人、全息通讯、虚拟主播、情感陪伴等场景提供核心能力。
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
CVPR+
https://cvpr.thecvf.com/
还有更多 •••
相关职位
实习通义研究型实习生
本项目将探索基于单张图像或稀疏视角图像构建高保真,可交互的3D高斯(3D Gaussian Splatting)数字人,支持大角度相机视角切换与大幅度身体姿态变化,保持几何一致性与渲染稳定性。所生成的3D高斯数字人支持多模态实时驱动,实现自然流畅的面部表情和肢体驱动,打造低延迟、高真实感的沉浸式交互体验,为虚拟主播、远程会议、教育陪练、情感陪伴等高价值应用场景提供技术支撑。
更新于 2025-11-12杭州
实习通义研究型实习生
本项目聚焦于多模态交互数字人技术的前沿探索,旨在基于对话双方的多模态上下文(包括文本、语音、视频等),实现3D数字人表情与肢体动作的实时生成与动态驱动,显著提升数字人的拟人性、情感表达能力与临场感。研究成果将支撑虚拟主播、情感陪伴、沉浸式人机交互等创新应用场景。
更新于 2025-11-24杭州
实习通义研究型实习生
随着大语言模型的快速发展,3D虚拟数字人实现自然对话与情感陪伴已成为可能。本项目致力于探索端到端的语音与数字人表情动作同步生成方法,旨在提升3D数字人的交互表现力与响应效率,增强其在对话过程中的真实感和自然度,推动3D数字人在多模态交互场景下的广泛应用。
更新于 2025-05-16杭州