logo of didi

滴滴大模型语音算法工程师(J251127015)

社招全职技术状态:招聘

任职要求


1、 熟悉主流语音合成框架(如 CoSyVoice、F5、Bert-VITS、GPT-SoVITS 等),并具备实际调优经验。
2、熟悉常见音频表征模型(hubert / best-rq 、wav2bert2.0)、有小语种方言落地经验优先、
3、具备大规模语音预训练、后训练(Post-…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与语音大模型 应用研发与落地
2. 参与语音全双工语音交互、包含打断、拒识、判停
3. 参与 语音理解、语音生成、语音端到端等大模型效果优化
包括英文材料
相关职位

logo of baidu
社招ACG

-负责语音相关核心算法的研发与优化,包括但不限于:自动语音识别(ASR)、语音合成(TTS)与声音克隆、语音分类与建模 -构建语音模型的训练与推理框架,推动关键模型的稳定上线与效果持续迭代 -跟踪语音领域前沿研究,探索并推动前沿技术在实际业务中的落地应用 -参与多模态场景下语音能力的集成与调优,提升整体模型的智能感知与表达能力 -与产品、工程团队紧密协作,共同推进语音技术在智能客服、会议纪要、数字人等场景的应用落地

更新于 2025-07-31北京|上海
logo of tencent
社招3年以上AI技术

1.负责语音/音频大模型研发,包括语音对话(语音交互/音视频对话)、音频理解(ASR/音频caption)、音频生成(TTS/视频配音)等模型研发; 2.负责语音/音频大模型的预训练、后训练、强化学习(文本和音频强化)相关的数据和算法工作; 3.负责语音对话/音频理解/音频生成的模型开源以及产品落地(比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化)。

更新于 2025-12-12深圳
logo of tencent
社招TEG技术

1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。

更新于 2025-06-10北京
logo of alibaba
实习淘天集团2026

参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。 3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。

更新于 2025-05-08北京|杭州