阿里巴巴多模态实时交互电商数字人

实习兼职淘天集团研究型实习生2025-10-17地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机视觉、自然语言处理、多模态理解等相关专业背景的在读硕士或博士；
2、扎实的算法和编程能力，熟悉主流的深度学习框架（Pytorch/TensorFlow），熟练掌握Python/C++中至少一门语言；
3、有图文MLLM/音视频MLL…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

欢迎加入阿里巴巴数字人团队！
如果你对以下领域感兴趣，并希望在实际项目中积累经验，欢迎加入我们！

你将参与的工作：
个性化数字人形象生成系统
在海量用户数据和先进技术支持下，协助开发能够生成千人千面个性化虚拟形象的系统。
学习并应用基础的图像处理和生成模型，帮助提升系统的定制化能力。
高表现力肢体表情驱动技术研发
参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。
协助优化现有技术，使数字人的表情和动作更加自然流畅，增强情感表达能力。
核心技术难题攻克
在导师指导下，学习和探索基于扩散模型的高质量数字人生成技术。
多模态统一大模型的应用
了解并参与多模态信息融合的研究，结合图像、文本、音频等多种信息，构建具备理解能力和生成能力的数字人系统。
协助解决业界尚未突破的技术瓶颈，推动技术创新。


相关研究课题细分方向：
数字人形象定制与风格化迁移
协助开发和优化数字人形象定制生成能力，适配不同的实时互动场景。
学习并应用基本的图像处理和生成算法，提升系统的灵活性和适应性。
数字人表情与肢体动作驱动
在导师指导下，参与数字人表情和肢体动作驱动技术的研发。
协助测试和优化现有系统，使其表现力更接近真人水平。
数字人多模态理解感知能力
参与构建数字人与用户的实时交互系统，提升其理解和响应能力。
协助进行多模态信息融合实验，增强数字人的个性化服务能力。

我们期待你是：
计算机科学、软件工程、人工智能等相关专业的在校学生（本科或研究生）。
对数字人技术有浓厚兴趣，愿意在实践中学习和成长。
具备一定的编程基础（如Python、C++），熟悉常用的数据处理和机器学习框架（如PyTorch、TensorFlow）者优先。
良好的团队合作精神和沟通能力。

加入我们，你将获得：
丰富的实战经验和前沿技术的学习机会。
导师一对一指导，助力你的职业发展。
参与影响亿级用户的大规模项目，感受技术带来的巨大价值。
开放包容的工作环境和充满活力的团队氛围。


让我们一起定义未来数字人的无限可能，期待你的加入！

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

NLP+

算法+

深度学习+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

算法工程师-AIGC数字人视频生成（T-Star Lab日常实习生）

实习淘天集团T-St

如果你，期望在阿里巴巴生态的广阔场景中，借助海量用户数据和先进的技术能力，打造千人千面的个性化数字人形象生产系统，为亿级用户提供高度定制化的虚拟形象服务；如果你，期望攻克高保真语音驱动（Speech-to-Video）的核心难题，研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法，实现从音频到视频的端到端极致还原，赋予数字人如同真人般的自然表达力与情感共鸣；如果你，期望挑战实时流式生成的技术难题，探索扩散模型与自回归模型的极速推理优化，实现低延迟、高吞吐的视频流实时产出，打破离线渲染的局限，支撑起百万级并发的实时交互直播场景；如果你，期望突破数字人与物理世界的边界，深耕复杂物体交互（Human-Object Interaction）技术，解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题，让数字人在导购、演播等场景中具备真实的物体操控能力；如果你，期望深入探索多模态统一大模型的应用，将视觉、语音、文本与动作序列深度融合，构建具备精细环境感知与逻辑理解能力的数字人系统，在复杂的电商实景中实现人-物-场的高度协同与自然对答。加入我们，你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购，影响数以亿计的用户。在这里，你不仅是在写代码，更是在通过流式架构与交互算法，重新定义未来数字人的无限可能！研究背景：在 AIGC 浪潮下，数字人已从早期的录像进化为动态实时生成。然而，业界仍面临三大核心挑战：交互的自然度：如何让数字人的肢体、表情与复杂的语音情感高度对齐，消除“恐怖谷”效应。物理规律的缺失：在电商直播等场景中，数字人需要手持商品、展示道具，如何解决手部交互（HOI）中的遮挡、形变及空间一致性是当前的技术深水区。实时性的瓶颈：扩散模型效果虽好但推理慢，如何实现低延迟的流式视频生成，是数字人从视频工具走向实时互动的必经之路。研究课题：基于扩散模型的高保真流式视频生成架构研究；复杂场景下的人与物体交互（HOI）视频生成；多模态情感驱动的全身动作与表情协同生成；成长资源： 1、算力自由：远离“算力焦虑”，专注于算法创新。 2、海量高质数据：拥有业界独有的、极其丰富的多模态商业场景数据，未视频生成，HOI等前沿课题提供土壤。 3、鼓励顶会产出：团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。 4、工业界顶级专家的 1v1 指导：团队由来自国内外顶尖院校的博士和工业界资深专家组成，实行“师兄制”，从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州

算法工程师-数字人形象生成与驱动（T-Star Lab 2026届实习）

实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目，继承“阿里星〞的使命与愿景，面向全球招募顶尖技术人才。首次开设实习生专项招聘，面向2025年10月后毕业的校优秀技术同学。期待你们在淘天，通过极具挑战的前沿课题与亿级规模的海量数据、应用场景，探索和实践最前沿的Al技术，在有价值的业务场景落地技术成果。如果你，期望在阿里巴巴生态的广阔场景中，借助海量用户数据和先进的技术能力，打造千人千面的个性化数字人形象生产系统，为亿级用户提供高度定制化的虚拟形象服务；如果你，期望参与最前沿的高表现力肢体表情驱动技术研发，通过先进的动作捕捉、表情合成和实时渲染技术，实现数字人自然流畅的表情和肢体动作，赋予数字人更真实的情感表达能力；如果你，期望攻克数字人生成中的核心技术难题，例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟，以及在复杂交互场景中保持人物和环境的一致性和自然度；如果你，期望深入探索多模态统一大模型的应用，将图像、文本、音频等多模态信息融合，构建具备精细理解能力和强大生成能力的数字人系统，解决业界尚未突破的技术瓶颈；加入我们，你的成果将直用于电商领域的核心场景，直播，客服，导购，影响数以亿计的用户，推动电商领域的数字化创新，并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能！ T-Star实习可以带给你什么？ ꔷ ①加入前沿技术探索队伍，参与顶级课题研究，有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生，提前解锁淘天顶级技术岗位，实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时，将获得直通正式批次终面的机会；参与T-Star实习且表现优秀的同学，提供T-Star转正Offer。

更新于 2025-05-07北京

算法工程师-数字人形象生成与驱动（T-Star Lab 日常实习）

实习淘天集团2026

更新于 2025-05-07北京

算法工程师-数字人形象生成与驱动（T-Star Lab 日常实习）

实习淘天集团T-St

更新于 2025-08-13北京