阿里巴巴算法工程师-多模态理解(T-Star Lab 日常实习)
任职要求
1、硕士及以上学历,计算机视觉、计算机图形学、机器学习等相关专业,有顶会相关论文发表; 2、具备计算机图形学和计算机视觉理论基础; 3、具备极佳的工程实现能力,熟练掌握C++/Java/Python等至少一门语言; 4、敢于突破现状,勇于探索新思路、新技术,能够积极主动地进行协助沟通,配合团队共同完成目标。 面向人群: 1、毕业时间在 …
工作职责
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 1、提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,负责模型结构设计、训练任务设计、预训练和下游能力建设等; 2、基于淘天用户丰富的消费行为,打造技术先进的电商用户理解多模态大模型,提升对用户的异构行为本质的认知能力; 3、通过方案的优化设计帮助模型有持续scale up能力,助力模型在多模态理解任务上实现sota; 4、跟踪、探索大模型方向/多模态预训练方向的前沿技术,通过后训练强化学习提升多模态对齐、多模态推理思考能力,提升下游任务的效果。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper
岗位课题: 探索生成和理解统一模型对视觉理解的增益 课题项目背景: 基于推荐和内容场景,通过多模态、大模型技术,应用于内容质量审核、内容基础信息完善、推荐泛化性探索等场景;我们有海量的商品、用户行为数据,能让实习生将前沿技术落地,并在真实应用和用户反馈中实现技术价值。 岗位职责: 在这里,你将深度参与并探索多模态、大模型技术给推荐、内容应用场景带来的新可能、新突破。这些技术成果,也将具体体现在每日用户使用和反馈的效果提升上。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 1.负责原生多模态统一大模型的数据构建、模型结构和训练策略设计等工作,包括统一编码器和网络结构设计,合成数据策略,以及跨模态融合训练策略等。 2.通过方案的优化设计帮助模型有持续scale up能力,助力模型在多模态理解和生成任务上实现sota。 3.通过后训练强化学习提升多模态对齐、多模态推理思考能力,激发模型在下游跨语音、视觉等应用场景中的潜力。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 工作内容: 1. 研发多模态大模型(MLLM),提升模型对图像/视频内容的深度语义理解、描述(Captioning)及问答能力。 2. 负责基于 Qwen-image-edit / Flux等架构的图像生成算法优化,提升生成质量、多样性和可控性。研发针对特定风格、人物或场景的 包括但不限于LoRA / ControlNet / IP-Adapter 等微调与控制技术。探索图像高清化(Upscaling)、局部重绘(Inpainting)及属性编辑等落地场景。 3. 负责文生视频(T2V)、图生视频(I2V)前沿算法的跟踪与实现(如 Sora,, Veo-3 类似架构)。优化视频生成的时空一致性、动作流畅度及长视频生成能力,探索视频风格迁移、数字人驱动及视频编辑相关技术。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ④有机会提前获得秋招直通T-Star的正式Offer。
如果你,期望在阿里巴巴亿级用户生态中,定义下一代数字人的“灵魂”与“听觉”,打造具备极致情感表现力和深度理解能力的智能语音交互系统; 如果你,期望探索高表现力语音合成的前沿,突破传统韵律限制,研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术,让数字人的声音不再冷冰冰,而是拥有细腻的情绪起伏和呼吸感; 如果你,期望攻克语音多模态理解的核心挑战,不再局限于单一的文本转译,而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气,实现对用户深层次语义和情绪的精准捕捉; 如果你,期望挑战1v1全双工实时对话的技术难题,研发低延迟的端到端语音到语音生成架构,攻克打断机制、交互反馈等难题,让数字人具备如同真人般自然、流畅的对答体验; 如果你,期望深入研究多模态对齐与融合,将语音特征与视觉表情、文本语义深度绑定,构建“音-意-形”高度统一的数字人交互大脑,解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。 加入我们,你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能,开启数字人交互的新纪元! 研究背景:目前的数字人交互大多是“对讲机”模式(用户说完 -> 系统处理 -> 系统回答),存在明显的延迟和僵硬感。要实现真正的1v1自然对话,需要数字人具备实时监听、情感对齐和即时反馈的能力。 研究课题: 1、流式情感感知: 研究如何在用户说话过程中,实时通过流式音频提取情绪、语气和意图,而非等待整句话结束。 2、打断(Barge-in)与反馈机制: 研发鲁棒的打断检测算法,并让数字人学会自发性口语,提升交互真实感。 3、预测性生成: 探索如何根据用户已说出的前半句内容,提前初始化 TTS 渲染状态,实现“边听边想边说”的流式效果。 成长支持&成长空间: 1、亲手参与从 0 到 1 定义数字人实时交互标准,体验技术改变数亿人购物方式的成就感。 2、 算力自由: 远离“算力焦虑”,专注于算法创新。 3、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为研究零样本学习、多模态对齐等前沿课题提供土壤。 4、 鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。