logo of tongyi

通义研究型实习生-基于大模型的音频文本理解技术研究

实习兼职通义研究型实习生地点:杭州状态:招聘

任职要求


1.候选人应为计算机及相关专业的博士或硕士研究生,且对大模型、人机交互、多模态联合建模有强烈的研究兴趣; 
2.需要有多模态对齐或人机交互的研究经验,在相关会议如ACL上发表过至少一篇一作文章。

工作职责


以ChatGPT为开端的语义大模型的解锁,激起了大模型的热潮。而在Chat这类交互体系下,口语语言理解是其下一个重要的技术分支;例如 交互数字人 场景下,Agent如何接收并理解语音转写的用户输入,进行思考、推理并生成符合对话场景的回复用于下游语音合成模型播报。同时,国外近期推出的GPT4o、Gemini-Pro等演示中都展示端到端低时延、自然度高的多模态交互系统。 本项目主要围绕 语音语义大模型 在语音对话场景的应用展开,探索 如何达到低时延的多模态交互,包括 语音语义联合建模、端到端全双工交互、高表现力的口语对话 方向
包括英文材料
大模型+
相关职位

logo of tongyi
实习通义研究型实习生

以OpenAI ChatGPT为代表的文本大模型激起了大模型的热潮。文本大语言模型的技术突破,也在深入的影响着音频领域的研究。如何让大语言模型不仅有“读”和“写”的能力,同时有“听“和“说”的能力,让其具备类似人类对音频信号的感知和理解能力,是一个具有重要科研价值和实际意义的研究方向。

更新于 2024-11-14
logo of tongyi
实习通义研究型实习生

随着人工智能技术的飞速发展,智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作,耗时且复杂,而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务,如角色生成、场景生成、运动生成、风格转换等。然而,当前的智能视频编辑系统在实际应用中往往面临一个关键挑战:“可控性不足”。 因此,本课题旨在探索如何提高智能视频编辑系统的可控性,使用户能够在保持高效自动化的同时,对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术,我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性,从而更好地服务于内容创作者和普通用户。

更新于 2024-12-12
logo of alibaba
实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队! 如果你对以下领域感兴趣,并希望在实际项目中积累经验,欢迎加入我们! 你将参与的工作: 个性化数字人形象生成系统 在海量用户数据和先进技术支持下,协助开发能够生成千人千面个性化虚拟形象的系统。 学习并应用基础的图像处理和生成模型,帮助提升系统的定制化能力。 高表现力肢体表情驱动技术研发 参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。 协助优化现有技术,使数字人的表情和动作更加自然流畅,增强情感表达能力。 核心技术难题攻克 在导师指导下,学习和探索基于扩散模型的高质量数字人生成技术。 多模态统一大模型的应用 了解并参与多模态信息融合的研究,结合图像、文本、音频等多种信息,构建具备理解能力和生成能力的数字人系统。 协助解决业界尚未突破的技术瓶颈,推动技术创新。 相关研究课题细分方向: 数字人形象定制与风格化迁移 协助开发和优化数字人形象定制生成能力,适配不同的实时互动场景。 学习并应用基本的图像处理和生成算法,提升系统的灵活性和适应性。 数字人表情与肢体动作驱动 在导师指导下,参与数字人表情和肢体动作驱动技术的研发。 协助测试和优化现有系统,使其表现力更接近真人水平。 数字人多模态理解感知能力 参与构建数字人与用户的实时交互系统,提升其理解和响应能力。 协助进行多模态信息融合实验,增强数字人的个性化服务能力。 我们期待你是: 计算机科学、软件工程、人工智能等相关专业的在校学生(本科或研究生)。 对数字人技术有浓厚兴趣,愿意在实践中学习和成长。 具备一定的编程基础(如Python、C++),熟悉常用的数据处理和机器学习框架(如PyTorch、TensorFlow)者优先。 良好的团队合作精神和沟通能力。 加入我们,你将获得: 丰富的实战经验和前沿技术的学习机会。 导师一对一指导,助力你的职业发展。 参与影响亿级用户的大规模项目,感受技术带来的巨大价值。 开放包容的工作环境和充满活力的团队氛围。 让我们一起定义未来数字人的无限可能,期待你的加入!

更新于 2025-10-17
logo of alibaba
实习淘天集团研究型实

1. 跟进多模态大模型(vLLM)预训练、SFT、RLHF等前沿技术和趋势; 2. 对淘系视频中的多模态信息(如视觉模态、音频模态、文本模态等)进行模型训练,优化内容理解表征; 3. 基于淘系用户行为数据,对内容理解模型进行微调,使其更好的适配下游推荐系统任务; 4. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。

更新于 2025-05-06