百度大模型语音算法工程师(J90608)
社招全职ACG地点:北京 | 上海状态:招聘
任职要求
-计算机、人工智能、电子工程、声学等相关专业本科及以上学历 -熟悉语音识别、语音合成、语音编码、离散建模、语音增强等核心技术,有扎实的语音基础 -有Transformer/GPT等大模型在语音任务中的训练与微调经验,了解SFT、DPO、RLHF等主流方法 -熟练掌握PyTorch,具备良好的代码能力和工程实现能力 -熟悉ONNX、TensorRT、vLLM、F…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责语音相关核心算法的研发与优化,包括但不限于:自动语音识别(ASR)、语音合成(TTS)与声音克隆、语音分类与建模 -构建语音模型的训练与推理框架,推动关键模型的稳定上线与效果持续迭代 -跟踪语音领域前沿研究,探索并推动前沿技术在实际业务中的落地应用 -参与多模态场景下语音能力的集成与调优,提升整体模型的智能感知与表达能力 -与产品、工程团队紧密协作,共同推进语音技术在智能客服、会议纪要、数字人等场景的应用落地
包括英文材料
学历+
语音识别+
https://www.youtube.com/watch?v=mYUyaKmvu6Y
Learn how to implement speech recognition in Python by building five projects.
https://www.youtube.com/watch?v=sR6_bZ6VkAg
How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recognition engine
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
GPT+
https://www.youtube.com/watch?v=kCc8FmEb1nY
We build a Generatively Pretrained Transformer (GPT), following the paper "Attention is All You Need" and OpenAI's GPT-2 / GPT-3.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位
社招3年以上AI技术
1.负责语音/音频大模型研发,包括语音对话(语音交互/音视频对话)、音频理解(ASR/音频caption)、音频生成(TTS/视频配音)等模型研发; 2.负责语音/音频大模型的预训练、后训练、强化学习(文本和音频强化)相关的数据和算法工作; 3.负责语音对话/音频理解/音频生成的模型开源以及产品落地(比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化)。
更新于 2025-12-12深圳
社招TEG技术
1.负责大模型语音模态的设计、开发和优化,包括但不限于语音/音频数据清洗、模型设计、训练策略等方面的研究与应用; 2.参与语音识别、语音合成、声音克隆等相关大模型语音模态能力的建设,提高跨模态整体效果。
更新于 2025-06-10北京
实习淘天集团2026
参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。 3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。
更新于 2025-05-08北京|杭州