蚂蚁金服蚂蚁集团-语音算法专家-杭州/深圳
任职要求
1. 计算机科学、电子信息、语音等相关专业本科及以上学历,2年以上人工智能算法相关工作经验; 2. 对语音方向有浓厚兴趣,熟悉语音领域的前沿技术,精通语音识别或语音合成至少一个领域;在相关领域期刊/会议(如ICASSP、InterSpeech等)发表过文章者优先; 3. 语音识别方向:精通语音识别全链路技术,熟悉声学模型、语言模型、端到端建模、语音唤醒等; 4. 语音合成方向:精通语音合成全链路技术,熟悉语音合成主流模型,具备情感控制、音色克隆、实时合成等实战经验,有Zero-Shot TTS算法韵律/真人度调优经验者优先; 5. 对技术有热情,有良好的沟通表达能力和团队精神,自驱力强。
工作职责
1. 面向蚂蚁集团AGI产品研发语音相关能力,助力蚂蚁集团基于大模型的智能交互业务发展; 2. 探索并落地前沿的语音算法技术,方向包括但不限于语音识别、语音合成、语音克隆等; 3. 负责和承接蚂蚁集团数十个场景中涉及的语音识别、语音合成的算法能力建设。
1. 负责蓝河操作系统音频服务框架的开发,在音频效果方面具备领先的技术优势,支撑产品体验; 2. 负责定义并实现音频硬件抽象层接口、音频算法的集成与维护,参与部分硬件产品选型,支撑产品落地。
1、负责多模态融合算法的前沿研究与开发,专注适配AIOS下手机AI agent复杂多模态交互场景,达成语音、手势、表情等多模态协同交互技术的实际应用; 2、深度优化多语言自然语言处理技术,全方位满足AIOS全球用户和agent多语言交互需求,提升语言交互的准确性与流畅度; 3、主导构建先进的视觉-语言交互系统,深入应用于AIOS的核心功能,助力AI agent精准理解并执行相关指令,拓展智能交互边界; 4、 运用创新数据处理技术,高效完成多模态数据的采集、清洗、标注与分析,结合前沿训练方法与策略,提升多模态融合模型性能,确保多模态技术在AIOS和agent应用中稳定、高效运行; 5、设计并优化多模态模型评估指标体系,通过深度分析评估结果,动态调整模型结构和参数,保障模型性能持续提升,助力团队整体技术能力进阶。
1、负责多模态融合算法的前沿研究与开发,专注适配AIOS下手机AI agent复杂多模态交互场景,达成语音、手势、表情等多模态协同交互技术的实际应用; 2、深度优化多语言自然语言处理技术,全方位满足AIOS全球用户和agent多语言交互需求,提升语言交互的准确性与流畅度; 3、主导构建先进的视觉-语言交互系统,深入应用于AIOS的核心功能,助力AI agent精准理解并执行相关指令,拓展智能交互边界; 4、 运用创新数据处理技术,高效完成多模态数据的采集、清洗、标注与分析,结合前沿训练方法与策略,提升多模态融合模型性能,确保多模态技术在AIOS和agent应用中稳定、高效运行; 5、设计并优化多模态模型评估指标体系,通过深度分析评估结果,动态调整模型结构和参数,保障模型性能持续提升,助力团队整体技术能力进阶。