logo of tongyi

通义通义实验室-语音大模型算法工程师-Qwen

社招全职1年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、机器学习等相关专业,博士及硕士优先。
2. 较强的代码能力,具有丰富的 TTS / Codec / 流ASR 研究经验,具有相关数据处理经验。
3. 精通 Python 以及 Pytorch深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现,且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力,具有开源开放精神。

加分项:
1. 曾发表顶级…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。

团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。

工作职责:
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
包括英文材料
机器学习+
语音合成+
语音识别+
Python+
PyTorch+
深度学习+
还有更多 •••
相关职位

logo of eleme
社招5年以上技术类-开发

1、主导多模态大模型(eg: deepseek、lama、qwen)的工程化落地,设计数据清洗-训练-推理全链路优化方案‌; 2、构建可复用的工程模块(如自动标注系统、场景仿真工具、测评平台),支持算法快速迭代‌; 3、攻坚大模型系统优化技术(模型压缩、硬件加速),让大模型能顺利落地各个业务场景;

更新于 2026-06-05北京
logo of meituan
社招2年以上核心本地商业-基

1. 负责大模型在客服业务场景下关键能力的应用研发,包括但不限于知识和指令遵循、深度推理、反思和评估等能力的优化和落地。 2. 负责多模态大模型的应用实践,特别是语音文本融合的多模态大模型的应用。 3. 研发和优化智能体的function call、多智能体间协调,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界。 4. 深入理解本地生活服务业务场景,抽象业务所需的大模型基础能力深度优化,推动相关技术在实际业务中的应用。 5. 与工程团队紧密合作,推动算法模型的工程化落地,包括模型压缩、加速、部署和监控等环节。 6. 紧密跟踪业界前沿技术,结合业务需求进行预研和技术储备,保持团队的技术竞争力。

更新于 2025-07-21北京|上海
logo of didi
社招技术

1. 构建端到端的网页文本内容提取&分析系统,针对网络数据复杂性,从系统效率和模型效果角度持续优化网页内容提取算法,迭代线上生产标准; 2. 设计预训练数据全局质量优化和治理方案,优化数据采样策略、隐私保护和安全合规策略,提升基座模型训练效率和效果; 3. 深度参与和实现多模态(图文混合、语音等)交错数据处理pipline,通过数据分析和配比实验等手段,提升多模态数据质量和多样性,支撑多模态大模型的数据需求; 4. 跟进大模型数据领域前沿技术(如Data Influence、Curriculum Learning、数据合成、基于大模型的数据预处理等),推动数据驱动的模型性能突破; 5. 深度参与千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率;

更新于 2025-06-17北京
logo of netease
实习人工智能

1. 深度参与雷火各旗舰游戏,实时语音交互、语音内容生产、语音创新玩法等场景研发和落地,为玩家创造崭新的互动娱乐体验; 2. 跟踪语音前沿技术,将最新的语音生成大模型、端到端语音大模型等先进技术落地至业务中; 3. 参与语音算法方案的整个生命周期,包括方案设计、算法实现、数据工程、线上服务等全流程。

杭州