
智能互联智能互联-语音合成算法专家-杭州/上海
任职要求
1. 计算机、数学、统计学相关专业,硕士及以上学历;3年及以上语音合成算法经验,熟悉领域前沿技术; 2. 具备优秀的理解力与执行力,具备良好的沟通协作能力;保持自我学…
工作职责
1. 负责语音合成算法能力建设和维护,提升语音合成自然度,打造优秀的产品体验; 2. 持续迭代算法能力,配合业务节奏,在个性化TTS、数字人等方向建设相关能力; 3. 分析并解决产品系统中各种badcase,总结问题共性,并落地自动化发现、自动化修复的能力; 4. 独立或带领相关同学探索新方向,引入新技术新想法,以发现商业价值或提升用户体验。
1、负责端侧语音交互模型(语音+语义双工)算法研发、协同工程团队落地和性能优化。 2、负责AI产品的语音识别、语音合成算法的应用和落地,提升识别准确率语与语音合成流畅度,及根据业务场景调优音色和综合的用户体验。 3、跟踪前沿语音AI技术和大语言模型在语音领域的结合应用,跟踪业界端到端的语音大模型能力,评估适配方案并推动技术落地。 4、与产品、后端研发团队协作,推动语音AI技术的快速迭代和业务落地。
1、语音合成文本分析,韵律预测,注音等技术研发; 2、熟悉常见的声学模型和声码器,具有相关的开发和研究经验 3、熟悉声音转换相关算法和技术; 4、熟悉通用合成引擎搭建及优化,具备云上和端上引擎优化经验。 5、深入调研和关注音频/NLP/多模态等方向的前沿技术,持续探索语音合成技术的新能力和新应用。
应用声纹识别、音频理解、音频增强等音频技术处理海量音频数据,紧跟业界前沿技术方向,参与构建生成式音频系统,从文本、视频、音频等多模态输入出发,研发高自然度、风格多样、可控性强的语音、音乐与音效生成模型,期待追求卓越、自我驱动、聪明乐观的优秀人士加入虎鲸文娱集团,共同开创影视工业化的商业新格局。 具体职责包括但不限于: 1、负责基于海量数据和复杂业务场景,和团队其他成员一起构建面向真实影视剧场景的一流音频合成系统,共同推动技术产品化与商业化; 2、负责音频合成相关算法设计,覆盖以下一个或多个方向: ꔷ 高拟人度、情绪丰富的语音合成,包括Emotional TTS、Speaker Recognition、Instant Voice Clone等模块的优化与落地; ꔷ 跨模态音频生成,包括Video-to-Audio、Text-to-Audio等方向的模型优化与落地; ꔷ 端到端的音乐生成,包括Lyric-to-Song, CoT, ICL等模块的优化与落地; 3、跟踪业界前沿技术和方法,持续探索音频合成技术的新能力和新应用,解决资源受限场景的实际问题,持续提升音频合成核心能力