logo of tongyi

通义通义实验室-语音处理算法专家-通义百聆

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 硕士及以上学历,电子、通信和计算机相关专业。
2. 三年以上语音算法开发经验,精通基于深度神经网络的语音算法,熟悉麦克风阵列处理、自适应滤波等算法原理,深入参与过语音交互类全链路产品建设,熟悉 ASR/TTS/LLM 等语音 AI 相关技术原理。掌握 AI 产品开发的开源工具和框架(如TensorFlowPyTorch
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责通义实验室语音团队的语音处理算法研发,通过深入理解全链路技术挑战和推动语音前后端协作,不限于语音增强、回声消除、麦克风阵列(波束形成、声源定位等)、语音唤醒、多模检测、轻量化ASR/TTS/LLM等任务,打造行业领先的语音处理算法。
2. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。
包括英文材料
学历+
算法+
大模型+
TensorFlow+
PyTorch+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-算法

1. 负责通义实验室语音团队的语音处理算法研发,通过深入理解全链路技术挑战和推动语音前后端协作,不限于语音增强、回声消除、麦克风阵列(波束形成、声源定位等)、语音唤醒、多模检测、轻量化ASR/TTS/LLM等任务,打造行业领先的语音处理算法。 2. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2025-12-05北京|杭州
logo of tongyi
社招3年以上技术类-算法

团队介绍: 我们是阿里巴巴通义实验室语音团队,在音频AI领域持续推动技术创新与产业落地。我们的成果包括: 1. ModelScope平台语音/音频板块核心算法团队 2. FunASR、CosyVoice、3D-Speaker等开源社区发起者与核心维护团队 3. 通义听悟(tingwu.aliyun.com)音频及语义算法团队 4. 阿里云智能语音交互及灵积语音模型服务核心算法提供方 岗位职责: 1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。

更新于 2025-11-23北京|杭州
logo of tongyi
社招3年以上技术类-算法

1.参与前沿语音生成大模型的研发,涵盖数据体系设计、模型架构设计、训练优化等。 2.探索语音合成、声学建模、自然语言处理等多模态融合技术,提升模型在语音质量、自然度及逻辑推理能力上的表现。 3.针对实际应用场景(音色克隆、情感控制等)优化模型效果和性能,解决复杂技术难题。

更新于 2025-12-03北京|杭州
logo of tongyi
社招5年以上技术类-算法

1. 负责面向AI手机、智能座舱等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。 2. 研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。 3. 构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 4. 针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 5. 与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。

更新于 2025-11-22北京|上海