通义研究型实习生-统⼀⾳频⽣成模型技术研究
任职要求
1.计算机、人工智能、电子工程、声学、信号处理等相关专业硕士或博士在读,毕业时间符合实习要求。 2.熟悉语音合成(TTS)、语音增强、音频生成等领域主流模型与前沿进展。 3.熟练掌握Python,精通PyTorch/TensorFlow等深度学习框架,具备良好的代码规范与工程实现能力。 4.对AIG…
工作职责
1.参与前沿统一音频生成大模型的研发,涵盖数据体系设计、模型架构设计、训练优化等。 2.参与统一音频基座模型的训练,协助设计多目标强化学习(RL)对齐机制,实现语音、音效、音乐的联合优化与复杂场景适配。 3.在海量数据与大规模模型参数驱动下,系统性验证统一音频生成基座模型的Scaling Laws,探索统一音频生成模型的性能边界。 4.撰写高水平学术论文,推动研究成果发表在CCF-A类会议或领域顶会/顶刊。
1. 参与设计和实现融合音频理解与生成能力的统一架构,打破传统模型在“理解”与“生成”之间的壁垒; 2. 研究并开发针对长时序音频的高效建模方法,解决上下文保持难题,提升长程语义一致性和事件定位精度; 3. 提升模型在高噪声、低资源、多说话人等复杂环境下的鲁棒性,同时保证生成内容的自然度; 4. 实现跨音频类型的通用表征学习,支持零样本或少样本迁移至新任务或领域; 5. 优化模型推理效率,支持端侧部署与实时交互,满足边缘设备及移动端应用需求。
RAG(Retrieval-Augmented Generation)检索增强生成技术伴随着LLM技术爆发迅速发展,广泛应用于文档问答、智能客服、技术支持等实际业务场景。 在上述场景中,除了纯文本内容效果已经发展到一定水平,图片、表格、代码等多模态的内容的RAG还处于比较初级阶段,目前技术很难解决实际业务问题。 多模态RAG效果重要的效果瓶颈之一在于多模态检索技术,如何将多模态信息统一表征到同一个向量化空间中,结合向量检索技术提升多模态检索效果是很有挑战的问题。 除了上述场景,多模态RAG通过和音频、视频等模态的结合,必定还有更多的业务场景可以挖掘。
研究领域: 人工智能 项目简介: 原生多模态模型在设计时原生支持多模态,通过在音频、视频、图片、文本等多模态序列上进行预训练,可以理解、生成 或 操作 不同模态组合 ,原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架,实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力
欢迎加入阿里巴巴数字人团队! 如果你对以下领域感兴趣,并希望在实际项目中积累经验,欢迎加入我们! 你将参与的工作: 个性化数字人形象生成系统 在海量用户数据和先进技术支持下,协助开发能够生成千人千面个性化虚拟形象的系统。 学习并应用基础的图像处理和生成模型,帮助提升系统的定制化能力。 高表现力肢体表情驱动技术研发 参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。 协助优化现有技术,使数字人的表情和动作更加自然流畅,增强情感表达能力。 核心技术难题攻克 在导师指导下,学习和探索基于扩散模型的高质量数字人生成技术。 多模态统一大模型的应用 了解并参与多模态信息融合的研究,结合图像、文本、音频等多种信息,构建具备理解能力和生成能力的数字人系统。 协助解决业界尚未突破的技术瓶颈,推动技术创新。 相关研究课题细分方向: 数字人形象定制与风格化迁移 协助开发和优化数字人形象定制生成能力,适配不同的实时互动场景。 学习并应用基本的图像处理和生成算法,提升系统的灵活性和适应性。 数字人表情与肢体动作驱动 在导师指导下,参与数字人表情和肢体动作驱动技术的研发。 协助测试和优化现有系统,使其表现力更接近真人水平。 数字人多模态理解感知能力 参与构建数字人与用户的实时交互系统,提升其理解和响应能力。 协助进行多模态信息融合实验,增强数字人的个性化服务能力。 我们期待你是: 计算机科学、软件工程、人工智能等相关专业的在校学生(本科或研究生)。 对数字人技术有浓厚兴趣,愿意在实践中学习和成长。 具备一定的编程基础(如Python、C++),熟悉常用的数据处理和机器学习框架(如PyTorch、TensorFlow)者优先。 良好的团队合作精神和沟通能力。 加入我们,你将获得: 丰富的实战经验和前沿技术的学习机会。 导师一对一指导,助力你的职业发展。 参与影响亿级用户的大规模项目,感受技术带来的巨大价值。 开放包容的工作环境和充满活力的团队氛围。 让我们一起定义未来数字人的无限可能,期待你的加入!