logo of alibaba

阿里巴巴算法工程师-数字人形象生成与驱动(T-Star Lab 日常实习)

实习兼职淘天集团2026届春季实习生招聘地点:北京状态:招聘

任职要求


【必备项】
1、计算机/电子/多媒体技术等相关专业的本科及以上学历;
2、在视频生成、多模态大模型LLM等技术方向有较深理解和实践;
3、具备极佳的工程实现能力,熟练掌握C++/Java/Python等至少一门语言;
4、良好的学习能力和产品理解能力,对AIGC在手淘具体业务场景的落地有想法和热情。

【加分项】
在相关领域国际会议发表多篇有影响力的一作CCF-A论文;
作为主要参与者参与有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。


如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务;
如果你,期望参与最前沿的高表现力肢体表情驱动技术研发,通过先进的动作捕捉、表情合成和实时渲染技术,实现数字人自然流畅的表情和肢体动作,赋予数字人更真实的情感表达能力;
如果你,期望攻克数字人生成中的核心技术难题,例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟,以及在复杂交互场景中保持人物和环境的一致性和自然度;
如果你,期望深入探索多模态统一大模型的应用,将图像、文本、音频等多模态信息融合,构建具备精细理解能力和强大生成能力的数字人系统,解决业界尚未突破的技术瓶颈;
加入我们,你的成果将直用于电商领域的核心场景,直播,客服,导购,影响数以亿计的用户,推动电商领域的数字化创新,并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能!


T-Star实习可以带给你什么?
ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper
包括英文材料
学历+
大模型+
还有更多 •••
相关职位

logo of alibaba
实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望参与最前沿的高表现力肢体表情驱动技术研发,通过先进的动作捕捉、表情合成和实时渲染技术,实现数字人自然流畅的表情和肢体动作,赋予数字人更真实的情感表达能力; 如果你,期望攻克数字人生成中的核心技术难题,例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟,以及在复杂交互场景中保持人物和环境的一致性和自然度; 如果你,期望深入探索多模态统一大模型的应用,将图像、文本、音频等多模态信息融合,构建具备精细理解能力和强大生成能力的数字人系统,解决业界尚未突破的技术瓶颈; 加入我们,你的成果将直用于电商领域的核心场景,直播,客服,导购,影响数以亿计的用户,推动电商领域的数字化创新,并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。

更新于 2025-05-07北京
logo of alibaba
实习淘天集团T-St

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望参与最前沿的高表现力肢体表情驱动技术研发,通过先进的动作捕捉、表情合成和实时渲染技术,实现数字人自然流畅的表情和肢体动作,赋予数字人更真实的情感表达能力; 如果你,期望攻克数字人生成中的核心技术难题,例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟,以及在复杂交互场景中保持人物和环境的一致性和自然度; 如果你,期望深入探索多模态统一大模型的应用,将图像、文本、音频等多模态信息融合,构建具备精细理解能力和强大生成能力的数字人系统,解决业界尚未突破的技术瓶颈; 加入我们,你的成果将直用于电商领域的核心场景,直播,客服,导购,影响数以亿计的用户,推动电商领域的数字化创新,并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper

更新于 2025-08-13北京
logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望攻克高保真语音驱动(Speech-to-Video)的核心难题,研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法,实现从音频到视频的端到端极致还原,赋予数字人如同真人般的自然表达力与情感共鸣; 如果你,期望挑战实时流式生成的技术难题,探索扩散模型与自回归模型的极速推理优化,实现低延迟、高吞吐的视频流实时产出,打破离线渲染的局限,支撑起百万级并发的实时交互直播场景; 如果你,期望突破数字人与物理世界的边界,深耕复杂物体交互(Human-Object Interaction)技术,解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题,让数字人在导购、演播等场景中具备真实的物体操控能力; 如果你,期望深入探索多模态统一大模型的应用,将视觉、语音、文本与动作序列深度融合,构建具备精细环境感知与逻辑理解能力的数字人系统,在复杂的电商实景中实现人-物-场的高度协同与自然对答。 加入我们,你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购,影响数以亿计的用户。在这里,你不仅是在写代码,更是在通过流式架构与交互算法,重新定义未来数字人的无限可能! 研究背景:在 AIGC 浪潮下,数字人已从早期的录像进化为动态实时生成。然而,业界仍面临三大核心挑战: 交互的自然度: 如何让数字人的肢体、表情与复杂的语音情感高度对齐,消除“恐怖谷”效应。 物理规律的缺失: 在电商直播等场景中,数字人需要手持商品、展示道具,如何解决手部交互(HOI)中的遮挡、形变及空间一致性是当前的技术深水区。 实时性的瓶颈: 扩散模型效果虽好但推理慢,如何实现低延迟的流式视频生成,是数字人从视频工具走向实时互动的必经之路。 研究课题: 基于扩散模型的高保真流式视频生成架构研究; 复杂场景下的人与物体交互(HOI)视频生成; 多模态情感驱动的全身动作与表情协同生成; 成长资源: 1、算力自由: 远离“算力焦虑”,专注于算法创新。 2、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,未视频生成,HOI等前沿课题提供土壤。 3、鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。 4、工业界顶级专家的 1v1 指导: 团队由来自国内外顶尖院校的博士和工业界资深专家组成,实行“师兄制”,从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州
logo of meituan
实习核心本地商业-业

【课题说明】 聚焦多模态数字人核心技术,以直播为应用场景,旨在突破其在真实感、智能交互、情感表达及多模态信息处理上的瓶颈。研发能自主执行复杂运营任务、展现丰富情感与高表现力,并与用户进行深度多模态内容互动的下一代数字人,革新直播行业运营模式与用户体验。 【建议研究方向】 1.智能运营Agent:研究数字人作为智能Agent,在直播前(策划、脚本、货盘)、中(场控、问答、促单)、后(复盘、再创)全流程承担运营职能。重点攻克基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效能。 2.高表现力数字人生成驱动:探索高真实感、个性化数字人形象(外观、声音、风格)的快速生成与定制。重点研究大模型驱动的、与语音同步且富含细腻情感的表情、口型、动作的实时驱动,增强直播感染力。 3.多模态内容生成和交互:研究理解用户多模态输入(文、语、图、视频)并进行深度互动。探索数字人自主生成动态多模态内容,丰富直播呈现,提升用户参与感。

更新于 2025-05-27北京