腾讯音乐天琴实验室语音数据实习生
任职要求
1. 本科及以上学历在校大学生; 2. 汉语言文学或播音主持相关专业,懂一门方言者优先;有配音经验或口才/口语教师经验者优先; 3. 英语口语佳,能准确发出各…
工作职责
1. 整理、制定指定音色的特色文案; 2. 跟随声优进棚,承担监棚任务,保证录音质量; 3. 根据算法工程师的要求进行实验数据的录制; 4. 进行模型训练效果的评估,并提供优化意见; 5. 对数据进行标注或者质检; 6. 承担一部分语音相关产品的工作。
目前急招法语&韩语&英语方向,对应小语种专业或有海外留学经历者优先 其他语言方向的同学可加入qq群:596552358 【岗位职责】 (个人简介/简历中请备注过往游戏经历!) 1、 商业洽谈:搜索、邀约海外专业KOL达成独家签约或代运营合作,工作内容包括但不限于优化话术、合同、商务邮件、语音会议沟通; 2、数据分析:以周、月为周期汇报引入成果,讨论签约进程,改进业务流程和方法,提高效率和效果,优化签约SOP; 3、商单跟进,依据需求将签约KOL的视频完成上线并记录数据,维护与KOL之间的关系。 4、深度参与各大出海游戏公司在海外营销推广工作,包括但不限于策略、KOL推荐、资源整合、电竞等环节;
本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。
本课题围绕点点、搜索等依赖自然人机交互的业务场景,打造面向AI Agent的端到端全双工自然语音交互能力,预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。 重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。
尽管当前的多模态大模型(融合视觉、语音、文本)已展现出强大的感知与理解潜力,但是在实时交互场景中,由于模型设计导致的高延迟、生硬的轮次状态、频繁的打断或被打断严重影响信息传递效率。同时多个模态无法实时融合也限制了多模态模型在语音交互场景下的深度应用。生成的交互内容有时显得冗长、缺乏提炼或智能不足,这些问题限制了用户与大模型实时交流的体验。 本课题的目标是设计并验证一种全模态实时交互的大模型架构,将视觉模态、语音流模态、思考模态信息以及 SOTA LLM 进行实时融合。从而使得大模型可以与人进行即时、流畅、且深入浅出、富有智慧的多模态自然语音对话。