logo of soul

Soul APPAIGC-语音算法工程师

社招全职地点:上海状态:招聘

任职要求


1.计算机、信号、数学或统计学等相关专业方向的硕士及硕士以上;
2.熟悉常用语音合成或理解框架,如:Cosyvoice、Step-Audio、F5等,有一个或多个开发和应用经验;
3.熟悉TransformerLLM、diffusion等原理,对超自然语音生成、多模态语音生成有一定的理解或应用;
4.熟练使用pytorch/tensorflow深度学习框架,具备Python/C/C++编程功底,应用经验丰富;
5.具备较强的自学能力和独立思考能力,善于思考和表达自己的想法,具备良好的团队合作精神;

工作职责


1.负责交互式语音合成,包括但不限于交互式AI播客、双工多模态通话等相关技术的算法研究,并协助业务落地;
2.持续迭代优化基础语音合成大模型算法,提高生成语音的自然度和稳定性;
3.持续跟进业界前沿算法发展方向,推动在核心技术上的影响力发展;
包括英文材料
Transformer+
大模型+
PyTorch+
TensorFlow+
深度学习+
Python+
C+
C+++
相关职位

logo of soul
社招

近年来,以大模型为核心的生成式人工智能在人机交互和虚拟陪伴领域展现出巨大潜力。我们专注于探索生成式AI在社交场景下的前沿应用和产业落地,致力于打造具备多模态感知与生成能力的社交大模型。 随着大语言模型的快速演进,如何让模型更好地理解多维度信息,并在社交场景中提供自然、细腻、沉浸感十足的语音与多模态交互体验,成为我们的核心研究方向。 如果你对生成式AI、多模态建模和智能交互充满热情,并希望参与构建下一代社交与陪伴大模型,欢迎加入我们,共同突破技术边界。 1. 多模态大模型算法创新:面向社交与智能交互需求,设计与优化模型架构,实现文本、语音、视觉等模态的联合建模,推动行业领先的社交多模态大模型研发。 2. 语音编码与生成算法突破:探索高效语音编码策略,优化离散化与连续特征建模方案,提升语音合成质量和建模效率。 3. 端到端技术闭环:参与或主导从数据构建、模型训练、性能评测到部署上线的完整研发流程。 4. 前沿应用技术探索:紧跟LLM、RL、Diffusion Models等前沿技术发展,探索创新范式并提升模型性能。

更新于 2025-09-09
logo of amap
实习高德地图2026

团队介绍: 高德语音技术团队,由高德资深算法专家,原微软小冰核心对话技术负责人组建,主要负责前沿语音技术在高德丰富场景中的落地应用。团队当前聚焦在语音合成、唤醒、语音AIGC等方向,探索前沿语音大模型技术对高德丰富产品形态的赋能。 具体职责包括但不限于: 1、对语音合成、自然语言处理、音视频多模态融合和大模型等方向感兴趣,独立研究并完成指定课题; 2、通过机器学习和人工智能技术来提升甚至重新定义音频内容创作工作,产出下一代超自然语音合成技术并应用于高德出行业务场景。

更新于 2025-03-03
logo of yuewen
社招3年以上技术

1. 负责TTS语音大模型(GPT-SoVITS、fishspeech、chattts)的技术研发及落地; 2. 探索语音模型前沿进展,结合网文业务探索TTS落地场景; 3. 较强的工程实践能力,构建语音合成底层推理架构,包括推理加速、合成效率等; 4. TTS及声音复刻场景下情感、音色、韵律等维度的技术研究; 5. 构建TTS音色库及相关语音合成平台;

更新于 2025-02-24
logo of 4paradigm
社招技术类

第四范式是中国智能决策市场的最大参与者。公司致力于实现企业级人工智能快速规模化落地,为企业提供以“决策型AI”、“生成式AI”为核心的技术、产品及解决方案,推动传统企业的数字化转型进程。2023年2月发布自研的多模态大模型产品“式说(4Paradigm SageGPT)”,已积累了数家国内最早的AIGC产业应用。目前已上市,有机会争取股票激励。•负责语音方向的设计和研发,模型的效果优化,包括不限于:参与语音识别、语音合成、声纹识别、语音评测等方向•将语音领域的算法应用于实际场景,解决真实业务问题•将实践中的创新点以Github Repo/Paper/Tech Report等形式开源

更新于 2023-02-27