logo of tongyi

通义通义实验室-数字人生成交互算法专家-北京/杭州

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能、机器学习、计算机图形学或相关领域的硕士及以上学历,具备两年以上计算机视觉或AI相关研发经验。
2. 扎实的机器学习深度学习或计算机图形学理论基础,精通扩散模型、多模态生成、3D表示学习等核心技术,并具备优秀的工程实现能力。
3. 有如下一项或者多项工作经验:音视频生成、口型/人体驱动动作生成、数字人3D重建、扩散…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 核心研发:负责面向实时交互场景的数字人生成技术研发,重点探索3D/身体表征与视频生成的深度融合,实现高保真、低延迟的全模态驱动数字人生成。
2. 数据奠基:运用Z-Image等前沿AIGC和多模态技术和数据管线技术,主导构建高质量、大规模的2D/3D人像数据集,为下一代数字人模型的研发奠定数据基石。
3. 前沿探索:紧跟业界前沿,探索Few-Step Diffusion Model、3D数字人等新范式在人像视频生成中的高效应用,持续提升生成质量与推理速度。
4. 系统落地:主导端到端实时数字人系统的算法创新与工程优化,推动算法在具体业务场景的落地,打造行业领先的实时交互式数字人产品。
包括英文材料
机器学习+
学历+
OpenCV+
深度学习+
数字人+
AIGC+
CVPR+
还有更多 •••
相关职位

logo of quark
社招2年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-09-19北京|杭州
logo of tongyi
社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2025-11-07北京|杭州
logo of tongyi
社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2026-01-06北京|杭州
logo of tongyi
社招3年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地。 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果。 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-12-24北京|杭州