腾讯混元语音与音频理解方向研究员(语音生成方向)(北京/深圳/上海)
社招全职2年以上混元助手-其他技术地点:北京状态:招聘
任职要求
1.计算机科学、人工智能、电子工程、信号处理等相关专业硕士、博士研究生; 2.掌握语音大模型、语音合成、语音识别、音频生成、语音转换、语音Codec等一项或多项研究和开发经验; 3.熟悉主流对话大模型(如GPT4o、GLM-4-Voice、Qw…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.跟踪业界最新的语音生成算法研究,探索下一代语音、音频生成新范式,拓展语音生成边界能力; 2.探索多模态语音大模型的前沿技术,结合文本、语音、视觉等技术提升语音交互体验; 3.负责语音大模型的技术研发工作,推动模型性能提升与创新应用。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
语音识别+
https://www.youtube.com/watch?v=mYUyaKmvu6Y
Learn how to implement speech recognition in Python by building five projects.
https://www.youtube.com/watch?v=sR6_bZ6VkAg
How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recognition engine
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
社招TEG技术
1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。
更新于 2025-06-10北京
社招TEG技术
1.多模态驱动引擎开发,通过对文本/语音/视觉等信息,构建虚拟人表情、动作的驱动大模型; 2.设计多模态条件生成框架,实现语音、表情、镜头、肢体动作的联合优化; 3.开发多模态特征同步技术:语音-表情时序对齐、文本语义-镜头运动关联建模。
更新于 2025-05-30深圳
社招3年以上AI技术
1.负责大语言模型在人机语音交互、音视频对话能力上的算法设计优化; 2.调研业界前沿算法,追踪最前沿的技术动态,并应用在相关的项目中; 3.参与产品讨论,基于技术对产品提出改进建议。
更新于 2025-11-11深圳