通义研究型实习生-基于大模型的音频信号理解和生成研究

实习兼职通义研究型实习生2024-11-14地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、博士/硕士研究生，计算机等相关专业优先。 
2、有扎实的理论基础，对大模型相关技术研究感兴趣。 
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

以OpenAI ChatGPT为代表的文本大模型激起了大模型的热潮。文本大语言模型的技术突破，也在深入的影响着音频领域的研究。如何让大语言模型不仅有“读”和“写”的能力，同时有“听“和“说”的能力，让其具备类似人类对音频信号的感知和理解能力，是一个具有重要科研价值和实际意义的研究方向。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

相关职位

研究型实习生-多模态上下文中的音频生成技术研究

实习通义研究型实习生

专注于音频生成大模型的研究、探索和开发，具体职责包括： 1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer，包括但不限于声学事件、音效、背景音乐、歌唱等。 2、探索更加高效的自回归音频生成技术，从根本上解决现有自回归模型的效率问题。 3、探索基于连续声学特征的音频生成大模型，生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。 4、探索在音频生成时对 Life-term 上下文有效的建模方式，提高训练、推理效率以及合成音频的表现力。 5、研究适用于音频生成模型的 post-training 策略，例如强化学习、多任务微调等。

更新于 2025-04-17北京|杭州

研究型实习生-基于大模型的音频文本理解技术研究

实习通义研究型实习生

以ChatGPT为开端的语义大模型的解锁，激起了大模型的热潮。而在Chat这类交互体系下，口语语言理解是其下一个重要的技术分支；例如交互数字人场景下，Agent如何接收并理解语音转写的用户输入，进行思考、推理并生成符合对话场景的回复用于下游语音合成模型播报。同时，国外近期推出的GPT4o、Gemini-Pro等演示中都展示端到端低时延、自然度高的多模态交互系统。本项目主要围绕语音语义大模型在语音对话场景的应用展开，探索如何达到低时延的多模态交互，包括语音语义联合建模、端到端全双工交互、高表现力的口语对话方向

更新于 2024-08-13杭州

多模态实时交互电商数字人

实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队！如果你对以下领域感兴趣，并希望在实际项目中积累经验，欢迎加入我们！你将参与的工作：个性化数字人形象生成系统在海量用户数据和先进技术支持下，协助开发能够生成千人千面个性化虚拟形象的系统。学习并应用基础的图像处理和生成模型，帮助提升系统的定制化能力。高表现力肢体表情驱动技术研发参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。协助优化现有技术，使数字人的表情和动作更加自然流畅，增强情感表达能力。核心技术难题攻克在导师指导下，学习和探索基于扩散模型的高质量数字人生成技术。多模态统一大模型的应用了解并参与多模态信息融合的研究，结合图像、文本、音频等多种信息，构建具备理解能力和生成能力的数字人系统。协助解决业界尚未突破的技术瓶颈，推动技术创新。相关研究课题细分方向：数字人形象定制与风格化迁移协助开发和优化数字人形象定制生成能力，适配不同的实时互动场景。学习并应用基本的图像处理和生成算法，提升系统的灵活性和适应性。数字人表情与肢体动作驱动在导师指导下，参与数字人表情和肢体动作驱动技术的研发。协助测试和优化现有系统，使其表现力更接近真人水平。数字人多模态理解感知能力参与构建数字人与用户的实时交互系统，提升其理解和响应能力。协助进行多模态信息融合实验，增强数字人的个性化服务能力。我们期待你是：计算机科学、软件工程、人工智能等相关专业的在校学生（本科或研究生）。对数字人技术有浓厚兴趣，愿意在实践中学习和成长。具备一定的编程基础（如Python、C++），熟悉常用的数据处理和机器学习框架（如PyTorch、TensorFlow）者优先。良好的团队合作精神和沟通能力。加入我们，你将获得：丰富的实战经验和前沿技术的学习机会。导师一对一指导，助力你的职业发展。参与影响亿级用户的大规模项目，感受技术带来的巨大价值。开放包容的工作环境和充满活力的团队氛围。让我们一起定义未来数字人的无限可能，期待你的加入！

更新于 2025-10-17北京|杭州

研究型实习生-智能视频编辑中的可控性研究

实习通义研究型实习生

随着人工智能技术的飞速发展，智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作，耗时且复杂，而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务，如角色生成、场景生成、运动生成、风格转换等。然而，当前的智能视频编辑系统在实际应用中往往面临一个关键挑战：“可控性不足”。因此，本课题旨在探索如何提高智能视频编辑系统的可控性，使用户能够在保持高效自动化的同时，对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术，我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性，从而更好地服务于内容创作者和普通用户。

更新于 2024-12-12北京|杭州