夸克语音算法实习生
实习兼职日常实习生地点:北京 | 杭州状态:招聘
任职要求
1、实习2~6个月以上; 2、硕士及以上学位在读,计算机科学/计算机工程/电子信息技术等相关专业优先; 3、有自然语言处理、语音合成、音乐生成、音效生成等研究或者技术背景优先; 4、熟练掌握PyTo…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、参与音频生成、音频理解和端到端语音交互大模型算法的基础研究和应用落地,支持千问APP、夸克APP和AI智能硬件等; 2、深入调研和研究音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
语音合成+
https://www.ibm.com/think/topics/text-to-speech
Text to speech (TTS) is a type of technology that converts text on a digital interface into natural-sounding audio.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
实习
1、负责语音降噪、语音唤醒、语音识别等前沿语音算法的研发; 2、负责算法模型在业务场景数据集上的优化,导出部署在端侧或云端平台; 3、跟进行业最新算法动态,复现和优化前沿算法,保持算法在工业界和学术界的领先
更新于 2025-03-10深圳

实习实习生
1、参与多模态语音理解+生成(speech、audio、music)领域的科研,效果优秀后推动在视频、游戏业务场景下的算法研发、落地,包括但不限于数据处理、模型训练、效果调优; 2、紧跟前沿技术、参与关键技术创新、突破与积累,撰写论文。
更新于 2025-08-13上海
实习高德研究型实习生
团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 1、参与语音识别、语音合成、Audio Codec、语音大模型等语音能力的设计和训练,解决高德业务场景实际问题。 2、提升鲁棒ASR、多语种(方言)ASR、LLM-ASR、大规模热词、全双工交互等语音理解能力。 3、提升Zero-Shot TTS、多语种TTS、情感TTS、声音复刻等语音生成能力。 4、持续追踪跟进业界前沿先进语音技术,结合业务需求开展技术创新与预研。
更新于 2025-12-17北京