通义通义实验室-语音处理算法专家-通义百聆

社招全职3年以上技术类-算法2025-12-05地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，电子、通信和计算机相关专业。
2. 三年以上语音算法开发经验，精通基于深度神经网络的语音算法，熟悉麦克风阵列处理、自适应滤波等算法原理，深入参与过语音交互类全链路产品建设，熟悉 ASR/TTS/LLM 等语音 AI 相关技术原理。掌握 AI 产品开发的开源工具和框架（如TensorFlow、PyTorch…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责通义实验室语音团队的语音处理算法研发，通过深入理解全链路技术挑战和推动语音前后端协作，不限于语音增强、回声消除、麦克风阵列（波束形成、声源定位等）、语音唤醒、多模检测、轻量化ASR/TTS/LLM等任务，打造行业领先的语音处理算法。
2. 持续关注行业前沿动态，通过专利申请、论文和技术报告等形式提升团队的技术影响力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

深度神经网络+

语音识别+

语音合成+

还有更多 •••

登录查看完整学习资料

相关职位

通义实验室-语音处理算法专家-通义百聆

社招3年以上技术类-算法

1. 负责通义实验室语音团队的语音处理算法研发，通过深入理解全链路技术挑战和推动语音前后端协作，不限于语音增强、回声消除、麦克风阵列（波束形成、声源定位等）、语音唤醒、多模检测、轻量化ASR/TTS/LLM等任务，打造行业领先的语音处理算法。 2. 持续关注行业前沿动态，通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2026-03-25北京|杭州

通义实验室-语音处理算法专家-通义百聆

社招3年以上技术类-算法

更新于 2026-04-02北京|杭州

自然语言处理算法实习生-语音对话交互方向

实习阿里巴巴日常实习

1、探索并构建面向语音交互场景的端到端对话大模型，实现多轮语音对话的语义理解、上下文管理与智能回复生成，打造流畅自然的人机对话体验，对标 GPT-4o、Gemini Live 等前沿产品； 2、负责语音、文本、图像等多模态信息的联合建模与跨模态对齐研究，基于 LLM/VLM 骨干网络（如 Qwen、GLM、seed 等）构建统一的多模态对话理解框架，提升模型在视听融合场景下的推理与交互能力； 3、参与对话大模型的预训练（Pre-training）、有监督微调（SFT）及基于人类反馈的强化学习（RLHF/RLAIF）全流程；重点攻克多轮对话上下文建模、语音-文本跨模态对齐、低延迟流式推理等核心技术难题； 4、设计并实施大规模语音对话数据的采集、清洗、合成与质量评估方案；构建高质量的多轮对话指令数据集（Instruction Tuning Data），包括语音问答、情感对话、多模态指令跟随等多类型数据； 5、持续追踪 ACL、EMNLP、NAACL、Interspeech、ICLR、NeurIPS 等顶会最新进展，快速复现并将 Chain-of-Thought、RAG、Agent、语音语言模型等前沿技术迁移至内部产品场景，推动模型能力持续迭代。

更新于 2026-05-20杭州

腾讯游戏-游戏AI算法研究员-语音处理

社招1年以上内容AIGC服务

1.负责游戏领域语音合成算法研发与落地，包括不限于情绪表达控制编辑和多样化语音合成； 2.推动语音合成技术在游戏场景中的应用，实现自然且富有情绪的语音输出，为游戏端内外提供更智能化的能力； 3.研究和探索情感建模、多说话人风格迁移、情感迁移等前沿技术，储备并应用新技术能力； 4.追踪业界前沿的语音合成及相关技术，并探索应用落地。

更新于 2026-01-26深圳