通义通义实验室-数字人生成交互算法专家-北京/杭州

社招全职3年以上技术类-算法2025-12-11地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能、机器学习、计算机图形学或相关领域的硕士及以上学历，具备两年以上计算机视觉或AI相关研发经验。
2. 扎实的机器学习、深度学习或计算机图形学理论基础，精通扩散模型、多模态生成、3D表示学习等核心技术，并具备优秀的工程实现能力。
3. 有如下一项或者多项工作经验：音视频生成、口型/人体驱动动作生成、数字人3D重建、扩散…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 核心研发：负责面向实时交互场景的数字人生成技术研发，重点探索3D/身体表征与视频生成的深度融合，实现高保真、低延迟的全模态驱动数字人生成。
2. 数据奠基：运用Z-Image等前沿AIGC和多模态技术和数据管线技术，主导构建高质量、大规模的2D/3D人像数据集，为下一代数字人模型的研发奠定数据基石。
3. 前沿探索：紧跟业界前沿，探索Few-Step Diffusion Model、3D数字人等新范式在人像视频生成中的高效应用，持续提升生成质量与推理速度。
4. 系统落地：主导端到端实时数字人系统的算法创新与工程优化，推动算法在具体业务场景的落地，打造行业领先的实时交互式数字人产品。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

OpenCV+

深度学习+

数字人+

AIGC+

CVPR+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-语音识别/语音大模型算法专家-通义百聆

社招3年以上技术类-算法

1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向：（1）研发语音识别、语音翻译以及音频分析等理解算法。（2）开发跨模态（语音/文本/视觉）的音频语义理解系统。（3）探索音频大模型架构设计。（4）推动算法成果转化：通过ModelScope开源社区创造研究价值，或通过阿里云产品体系创造商业价值。（5）持续跟踪国际前沿技术动态（ICASSP/Interspeech/NeurIPS/ICLR等），参与国际会议、研讨会，与全球顶级团队进行交流合作。

更新于 2026-04-02北京|杭州

通义实验室-多模态交互算法专家-通义百聆

社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发，通过深入理解全链路多模态交互技术，推进大模型增强的语言交互技术能力建设。 2. 多模态交互：（1）端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。（2）多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。（3）多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解：（1）转写内容后处理 - 书面化、标点、分段分章节。（2）音视频分析 - 分角色、语种判别、视频场景划分。（3）口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景，包括但不限于：（1）消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。（2）内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态，通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2025-11-07北京|杭州

智能信息-语音大模型算法专家/高级专家-杭州/北京

社招2年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地； 2. 参与语音合成与识别技术在业务场景落地，解决落地过程中的前沿问题，持续优化语音合成与识别核心技术效果； 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术，持续探索语音技术的新能力和新应用。

更新于 2025-09-19北京|杭州

通义实验室-语音大模型算法专家/高级专家-多模态交互

社招3年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地。 2. 参与语音合成与识别技术在业务场景落地，解决落地过程中的前沿问题，持续优化语音合成与识别核心技术效果。 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术，持续探索语音技术的新能力和新应用。

更新于 2026-02-11北京|杭州