通义研究型实习生-多模态交互3D数字人的感知、重建及生成技术

实习兼职通义研究型实习生2025-11-18地点：杭州状态：招聘

扫码手机上打开

任职要求

1、全日制在读博士或硕士研究生，计算机、人工智能、图形学等相关专业背景优先。
2、具备扎实的机器学习与深度学习理论基础，熟练掌握至少一种主流深度学习编程框架（如PyTorch、TensorFlow等），具备良好的代码实现能力，并持续保持对前沿技术的探索热情。
3、在计算机视觉、图形学等领域顶级会议或期刊（如CVPR、ICCV、EC…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

3D数字人的感知、重建与生成技术是多模态交互数字人、全息通讯、虚拟主播、情感陪伴等前沿应用的核心支撑。本项目旨在推动如下课题的技术攻关：
1、3D数字人感知研究：
聚焦于利用多模态视觉语言模型、视频生成等先进方法，从单张图像或视频中高效、精准地提取数字人的表情与人体参数，提升数字人感知系统的准确度与鲁棒性。
2、3D数字人重建与生成研究：
致力于结合文本、图像、视频等多模态数据与生成式大模型技术，推动从单图或多视角图像中重建并生成高质量3D数字人（如高斯泼溅、三维网格等）技术的发展，增强模型的写实性与表现力。同时探索实时多模态驱动与渲染技术，构建低延迟、高真实感的沉浸式交互体验，为多模态交互数字人、全息通讯、虚拟主播、情感陪伴等场景提供核心能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

TensorFlow+

OpenCV+

CVPR+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - 面向多模态理解/交互的模型架构设计及其训练推理系统构建与优化

实习通义研究型实习生

1.负责多模态理解大模型的前沿算法研究、实现与优化，重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集，探索数据增强策略，并可能建设高效的数据生产、标注和评估 pipeline，涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向，并提出创新算法或方案，推动学术前沿发展。

更新于 2025-12-02杭州|上海

研究型实习生 - 面向多模态理解/交互的模型架构设计及其训练推理系统构建与优化

实习阿里巴巴研究型实

更新于 2026-06-09杭州|上海

研究型实习生-医疗数字人多模态交互算法研究

实习研究型实习生

研究领域：人工智能项目简介：随着远程医疗、居家康复、互联网医院等场景爆发式增长，医患之间“面对面”实时交互从“线下”迁移到“线上”。传统文字/图片问诊已无法满足听诊、视诊、康复指导、急救指挥等强实时、强感官的临床需求。项目聚焦“听得到、看得见、看得懂、答得准”四大痛点，构建一套医疗级、低延时、可解释、可扩展的音视频多模态实时交互 Agent 框架。通过融合图像、视频、音频、文字、结构化数据等模态数据，实现接近真人医生视频对话的实时交互效果，提升用户体验，保障在AI诊疗任务中的识别效果。

杭州

研究型实习生-多模态算法（音乐方向）-未来生活实验室

实习阿里巴巴研究型实

1. 协助团队开展多模态大模型算法研发工作，参与语音/音频生成、理解等核心技术的研发与测试； 2. 辅助研发多模态内容理解模型，协助搭建高精度、细粒度的内容描述体系，完成基础数据标注与整理工作； 3. 参与训练数据集的搭建、清洗、整理与标注，助力模型迭代优化，配合完成数据集相关基础调研； 4. 协助推进多模态大模型在核心业务中的落地测试，参与技术实用化过程中的效果验证与问题反馈； 5. 跟踪多模态大模型、音频AI领域行业前沿技术，协助整理前沿技术资料，参与团队技术研讨与学习。

更新于 2026-06-29北京|杭州