米哈游【提前批】多模态统一模型研究员
任职要求
1、学历背景:计算机科学、人工智能、电子工程、数学等相关专业硕士及以上学历 2、有大模型(文本、语音、视频、图像等)训练经验,对模型架构有深刻理解和优化经验 3、研究能力:具备独立的科研思维,能够阅读前沿论文并提出创新性改进方案,有生成模型或理解模型,统一模型的相关文章或项目经验 4、工程经验:熟悉分布式训练、混合精度训练等优化技术 加分项 1、有大规模视频生成、理解、统一模型的训练经验 2、了解音视频联合建模和跨模态生成技术 3、对视频内容创作、影视制作等应用场景有深入理解,有跨学科背景(艺术、设计、传媒等)或相关兴趣
工作职责
专注于统一视频理解和生成模型的研究与开发,参与构建下一代视频AI系统,探索视频内容的深度理解与高质量生成的统一建模方法,推动视频AI在理解、编辑、生成等任务上的技术突破。 核心职责: 1、统一视频模型架构设计 2、前沿技术探索与实现,探索Diffusion Model、Auto-regressive Model在视频生成和理解的统一建模 3、研究文本-视频-音频多模态对齐技术和条件控制方法 4、大规模音视频理解和生成模型训练及优化
专注于统一音频生成模型的研究与开发,参与构建下一代语音、歌声、音乐、音效等多类型音频生成基础模型,探索大语言模型与音频生成的深度技术融合,推进音频-视频联合生成,推动audio AI在语音/歌声合成、音乐创作、音效生成、视频配音等场景的技术突破。 核心职责: 1. 模型架构与训练:负责统一音频生成模型设计与分布式优化,实现语音/歌声合成+音效生成+音视频联合生成的多任务统一建模 2. Audio Tokenization:研究连续/离散token的音频表征,优化压缩效率与重建质量的最优平衡 3. 跨模态融合:探索大语言模型与音频生成融合技术 4. 数据管线:参与设计并落地大规模高质量多模态生成数据集,覆盖语音、歌声、音乐、音效及音视频同步数据处理pipeline
专注于AudioLLM通用音频理解模型的研究与开发,参与构建下一代音频基础模型和Omni多模态框架,探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法,推动 audio AI 在理解、生成和交互场景中的技术突破。 核心职责: 1. 模型架构与训练:负责通用音频理解模型设计与分布式训练优化,实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模 2. 数据管线:设计并落地大规模多模态音频数据 pipeline,完成数据对齐、质量控制与自动标注 3. 跨模态融合:研究音频编码器与大语言模型融合技术,优化跨模态注意力与统一特征表示
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望参与最前沿的高表现力肢体表情驱动技术研发,通过先进的动作捕捉、表情合成和实时渲染技术,实现数字人自然流畅的表情和肢体动作,赋予数字人更真实的情感表达能力; 如果你,期望攻克数字人生成中的核心技术难题,例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟,以及在复杂交互场景中保持人物和环境的一致性和自然度; 如果你,期望深入探索多模态统一大模型的应用,将图像、文本、音频等多模态信息融合,构建具备精细理解能力和强大生成能力的数字人系统,解决业界尚未突破的技术瓶颈; 加入我们,你的成果将直用于电商领域的核心场景,直播,客服,导购,影响数以亿计的用户,推动电商领域的数字化创新,并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。