阿里巴巴AI创新事业部-音频算法专家/高级专家-未来生活实验室
社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘
任职要求
1、熟悉主流音频架构(如 Whisper, VITS, AudioLM, Vall-E,CosyVoice); 2、精通音频信号处理及神经编解码器…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、研发前沿的音频大模型 (Audio-LLM),实现语音识别 (ASR)、语音合成 (TTS) 与音频理解的端到端融合。 2、优化多语种、情感化及高表现力的语音生成,提升在复杂环境(噪声、多人交谈)下的语义提取鲁棒性。 3、设计并优化多模态音乐生成模型,涵盖风格、韵律、和声、节奏等多维度生成任务。 4、探索音频 Tokenizer 优化,实现音频与 LLM 符号空间的对齐。
包括英文材料