logo of baidu

百度大模型语音算法工程师(J90608)

社招全职ACG地点:北京 | 上海状态:招聘

任职要求


-计算机、人工智能、电子工程、声学等相关专业本科及以上学历
-熟悉语音识别、语音合成、语音编码、离散建模、语音增强等核心技术,有扎实的语音基础
-有Transformer/GPT大模型在语音任务中的训练与微调经验,了解SFT、DPO、RLHF等主流方法
-熟练掌握PyTorch,具备良好的代码能力和工程实现能力
-熟悉ONNX、TensorRT、vLLM、F…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-负责语音相关核心算法的研发与优化,包括但不限于:自动语音识别(ASR)、语音合成(TTS)与声音克隆、语音分类与建模
-构建语音模型的训练与推理框架,推动关键模型的稳定上线与效果持续迭代
-跟踪语音领域前沿研究,探索并推动前沿技术在实际业务中的落地应用
-参与多模态场景下语音能力的集成与调优,提升整体模型的智能感知与表达能力
-与产品、工程团队紧密协作,共同推进语音技术在智能客服、会议纪要、数字人等场景的应用落地
包括英文材料
学历+
语音识别+
Transformer+
GPT+
大模型+
还有更多 •••
相关职位

logo of tencent
社招3年以上AI技术

1.负责语音/音频大模型研发,包括语音对话(语音交互/音视频对话)、音频理解(ASR/音频caption)、音频生成(TTS/视频配音)等模型研发; 2.负责语音/音频大模型的预训练、后训练、强化学习(文本和音频强化)相关的数据和算法工作; 3.负责语音对话/音频理解/音频生成的模型开源以及产品落地(比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化)。

更新于 2025-12-12深圳
logo of tencent
社招TEG技术

1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。

更新于 2025-06-10北京
logo of alibaba
实习淘天集团2026

参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。 3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。

更新于 2025-05-08北京|杭州
logo of xiaohongshu
社招3-5年多媒体算法

1.支持语音识别及音频理解在小红书丰富业务场景的落地,持续优化大模型语音识别效果 2.跟进最领先的音频理解技术体系,包括但不限于提出新的音频理解技术框架、改进现有的算法、持续提升相关技术及业务指标,鼓励撰写论文及申请专利。

更新于 2026-01-20北京|上海