logo of tongyi

通义研究型实习生-多语言多风格迁移的高表现力语音合成技术

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1)提出针对上述目标的原创性算法框架,以及可开源的高质量代码一套。 
2)将实习期间的技术创新沉淀出1-2篇国际顶会论文。

工作职责


高品质、高表现力的语音合成(TTS)技术需要用到高质量的录音数据进行模型训练,而采集高质量录音数据的成本较高,并且有其它自然阻碍使得数据采集无法完成。这些局限性使得特定说话人的音色的使用场景只能局限于特定风格和特定语言,因此也限制了TTS技术在更大范围内灵活使用和推广。因此,研究具有多语言,多风格迁移能力的高表现力语音合成技术具有极高价值,期望在低资源的条件下,实现风格的迁移,说话人音色的迁移,和语言的迁移。
包括英文材料
算法+
相关职位

logo of tongyi
实习通义研究型实习生

专注于多模态通用运动表征技术的研究,具体职责包括: 1、构建一个多模态大模型框架,能够对现有多媒体素材中运动信息进行学习,输出在特定类目/物品在指定环境下运动规律的个性化表征; 2、基于上述运动表征,能够恢复、迁移到指定类目及场景下的运动效果,生成对应的视频素材; 3、模型能够拓展到通用物体场景,包含刚性/非刚性物体、被动/主动运动物体、相机视角变化/主体运动; 4、负责算法研发过程中的数据构建工作。

更新于 2025-05-08
logo of alibaba
实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队! 如果你对以下领域感兴趣,并希望在实际项目中积累经验,欢迎加入我们! 你将参与的工作: 个性化数字人形象生成系统 在海量用户数据和先进技术支持下,协助开发能够生成千人千面个性化虚拟形象的系统。 学习并应用基础的图像处理和生成模型,帮助提升系统的定制化能力。 高表现力肢体表情驱动技术研发 参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。 协助优化现有技术,使数字人的表情和动作更加自然流畅,增强情感表达能力。 核心技术难题攻克 在导师指导下,学习和探索基于扩散模型的高质量数字人生成技术。 多模态统一大模型的应用 了解并参与多模态信息融合的研究,结合图像、文本、音频等多种信息,构建具备理解能力和生成能力的数字人系统。 协助解决业界尚未突破的技术瓶颈,推动技术创新。 相关研究课题细分方向: 数字人形象定制与风格化迁移 协助开发和优化数字人形象定制生成能力,适配不同的实时互动场景。 学习并应用基本的图像处理和生成算法,提升系统的灵活性和适应性。 数字人表情与肢体动作驱动 在导师指导下,参与数字人表情和肢体动作驱动技术的研发。 协助测试和优化现有系统,使其表现力更接近真人水平。 数字人多模态理解感知能力 参与构建数字人与用户的实时交互系统,提升其理解和响应能力。 协助进行多模态信息融合实验,增强数字人的个性化服务能力。 我们期待你是: 计算机科学、软件工程、人工智能等相关专业的在校学生(本科或研究生)。 对数字人技术有浓厚兴趣,愿意在实践中学习和成长。 具备一定的编程基础(如Python、C++),熟悉常用的数据处理和机器学习框架(如PyTorch、TensorFlow)者优先。 良好的团队合作精神和沟通能力。 加入我们,你将获得: 丰富的实战经验和前沿技术的学习机会。 导师一对一指导,助力你的职业发展。 参与影响亿级用户的大规模项目,感受技术带来的巨大价值。 开放包容的工作环境和充满活力的团队氛围。 让我们一起定义未来数字人的无限可能,期待你的加入!

更新于 2025-10-17
logo of aliyun
实习阿里云研究型实习

专注于数据湖场景下向量化和多模态数据存储和分析系统的研究、探索和开发,具体职责包括: 1、探索和研究高效可扩展的向量索引和分级存储算法,支持超大规模向量数据存储和检索; 2、探索和研究高性能的多模态数据检索和查询算法,支持大数据AI一体化场景下的融合分析; 3、分析现有向量索引算法和典型负载的性能瓶颈,提出并实现创新的优化技术; 4、结合阿里云Milvus和EMR 产品服务,提供可靠高效的向量存储和检索方案,支持不同行业和规模的客户场景; 5、面向数据湖仓场景构建业界领先的多模态数据查询分析解决方案。

更新于 2025-06-26
logo of tongyi
实习通义研究型实习生

专注于音频生成大模型的研究、探索和开发,具体职责包括: 1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer,包括但不限于声学事件、音效、背景音乐、歌唱等。 2、探索更加高效的自回归音频生成技术,从根本上解决现有自回归模型的效率问题。 3、探索基于连续声学特征的音频生成大模型,生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。 4、探索在音频生成时对 Life-term 上下文有效的建模方式,提高训练、推理效率以及合成音频的表现力。 5、研究适用于音频生成模型的 post-training 策略,例如强化学习、多任务微调等。

更新于 2025-04-17