logo of tencent

腾讯语音与音频理解方向研究员(大模型与多模态方向)

社招全职TEG技术地点:北京状态:招聘

任职要求


1.计算机、电子工程、人工智能、语言学或相关领域博士,或硕士加多年相关工作经验;
2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构;
3.熟练掌握 语音识别,语音合成,语音翻译等 一项多多项系统开发流程,具有多语言、多任务或端到端系统经验者优先;
4.对以下方向具备深入研究或实践经验者优先:;
5.语音表征预训练(如 HuBERT, Wav2Vec, Whisper 等);
6.多模态对齐与跨模态建模(音视频和文本);
7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先;
8.熟练掌握 PyTorchTensorFlow深度学习框架,有大规模训练与分布式系统经验者优先;
9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。

工作职责


1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:;
2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等;
3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征;
4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模;
5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
包括英文材料
大模型+
语音识别+
PyTorch+
TensorFlow+
深度学习+
分布式系统+
Transformer+
相关职位

logo of tencent
社招TEG技术

1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:; 2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。

更新于 2025-06-24
logo of tencent
社招TEG技术

1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力; 2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验; 3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。

更新于 2025-06-24
logo of tencent
社招2年以上混元助手-其他技

1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力; 2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验; 3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。

更新于 2025-10-16
logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-10-16