logo of alibaba

阿里巴巴AI创新事业部-音频算法专家/高级专家-未来生活实验室

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1、熟悉主流音频架构(如 Whisper, VITS, AudioLM, Vall-E,CosyVoice);
2、精通音频信号处理及神经编解码器…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、研发前沿的音频大模型 (Audio-LLM),实现语音识别 (ASR)、语音合成 (TTS) 与音频理解的端到端融合。
2、优化多语种、情感化及高表现力的语音生成,提升在复杂环境(噪声、多人交谈)下的语义提取鲁棒性。
3、设计并优化多模态音乐生成模型,涵盖风格、韵律、和声、节奏等多维度生成任务。
4、探索音频 Tokenizer 优化,实现音频与 LLM 符号空间的对齐。
包括英文材料