logo of youku

优酷优酷-语音算法专家-杭州/北京

社招全职3年以上地点:北京 | 杭州状态:招聘

任职要求


1、在语音合成、情绪迁移、音频检索、音频分类、声纹识别、语音增强等方面有相关的项目经验,并能够对其中某一领域的算法深入研发并努力创新
2、熟悉传统机器学习基础理论,熟悉深度学习开源框架,深入理解DNN/RNN/CNN/lstm原理,掌握至少一个深度学习框架(如tensorflow, pytorch)
3、拥有良好的数学及信号处理基础,熟练掌握C/C++,python编程语言
4、学习能力强,逻辑思维清晰; 较强的文献阅读能力,能够快速实现或设计音频相关的算法
5、在相关方向知名国际会议发表过论文者优先

工作职责


应用声纹识别、语音合成、情绪迁移等音频技术处理海量音频数据,紧跟业界前沿技术方向,在真实的语音场景进行落地应用,实现音色适配、情绪饱满、高自然度拟人的音频合成,期待追求卓越、自我驱动、聪明乐观的优秀人士加入虎鲸文娱集团,共同开创影视工业化的商业新格局
具体职责包括但不限于:
1、负责基于海量数据和复杂业务场景,和团队其他成员一起构建面向多语言多说话人多情绪的一流语音合成系统
2、负责语音合成相关算法设计,包括Emotional TTS、Speaker Recognition、Instant Voice Clone等模块的算法优化和在实际场景上的落地
3、跟踪业界前沿技术和方法,持续探索语音合成技术的新能力和新应用,解决资源受限场景的实际问题,持续提升语音合成核心能力
包括英文材料
算法+
机器学习+
深度学习+
LSTM+
TensorFlow+
PyTorch+
C+
C+++
Python+
RNN+
CNN+
相关职位

logo of quark
社招1年以上技术类-算法

1.负责声学前端、声学模型、语言模型、后处理、解码器等主要模块的迭代和改进; 2.负责优化双工交互系统,提高系统的鲁棒性和性能; 3.负责优化语音识别大模型、流式语音识别、音频理解大模型、语音端到端大模型等; 4.追踪业界前沿的语音技术,探索语音大模型在业务场景下的应用。

更新于 2025-09-26
logo of quark
社招2年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-09-19
logo of quark
社招3年以上技术类-算法

1、语音合成文本分析,韵律预测,注音等技术研发; 2、熟悉常见的声学模型和声码器,具有相关的开发和研究经验 3、熟悉声音转换相关算法和技术; 4、熟悉通用合成引擎搭建及优化,具备云上和端上引擎优化经验。 5、深入调研和关注音频/NLP/多模态等方向的前沿技术,持续探索语音合成技术的新能力和新应用。

更新于 2025-09-26
logo of quark
社招2年以上技术类-算法

1. 负责语音识别和语音对话大模型的算法研发与优化,包括声学模型、LLM模型和解码器等,探索新的算法架构,建设高效率、低时延的语音应用系统; 2. 结合业务需求,持续改进现有模型的性能,确保其在不同应用场景下的准确性和鲁棒性,提升语音助手和语音智能体用户体验; 3. 构建和管理大规模语音识别和语音对话语料库,用于训练、验证和测试模型; 4. 跟踪前沿技术和研究动态,提出新颖的算法思路和解决方案。

更新于 2025-08-19