
零一万物语音算法专家(语音大模型方向)
任职要求
1、计算机、人工智能等相关专业,本科及以上; 2、3 年以上语音算法或深度学习相关经验; 3、熟悉 ASR、说话人识别等方向,具备语音大模型经验者优先; 4、…
工作职责
1、基于语音大模型,研发与优化语音识别(ASR)和说话人识别相关算法; 2、支持中文(大陆 / 港澳台)、英文等多语种语音处理; 3、提升模型在噪声、口音、长音频等复杂场景下的效果与稳定性; 4、推动语音模型的工程化落地与线上部署。
主要负责多模态大模型(不限于视觉/语音专家模型与全模态融合模型)的模型能力分析,并且对训练数据、训练策略和模型能力之间的关系进行研究分析,产出可行的模型评测方案和训练策略,具体工作内容包括但不限于: 1. 追踪多模态大模型方向的前沿进展,积极学习新的模型结构、前沿模型认知,并进行深入分析。 2. 积极探索业界前沿的生成与理解多模大模型进展,深入理解模型结构与训练过程,设定合理的模型训练效果分析方法和评测方案。 3. 结合评测结果,对模型的训练数据、策略和结构等进行深入分析,指导评测方案迭代以及训练策略优化。 4. 与各相关部门保持良好沟通,深度参与多模态模型的训练过程,共同推动多模态大模型持续优化。
团队介绍: 高德语音技术部,是负责高德自研全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音识别、模型服务与推理、大规模语音IP定制服务等。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/A3TWtfwlqGdkC6oNHrkFaw ) 工作职责 1、参与输出语音技术(TTS、ASR、语音表征学习、端到端模型)的长期技术路线规划,推动团队在生成式语音大模型、多模态语音交互等领域的技术突破; 2、研究TTS大模型、端到端语音模型的前沿方向,探索语音与文本、视觉的跨模态融合,探索出行场景语音Agent的创新方向; 3、技术落地与产品化:将研究成果转化为高价值产品,解决复杂场景(如低资源语言、多语种、实时性要求高的工业级应用); 4、学术与产业影响力:发表顶会论文(如ICASSP、INTERSPEECH、NeurIPS、ICML)、申请核心专利,提升公司技术话语权。
团队介绍: 高德语音技术团队,由高德资深算法专家,原微软小冰核心对话技术负责人组建,主要负责前沿语音技术在高德丰富场景中的落地应用。团队当前聚焦在语音合成、唤醒、语音AIGC等方向,探索前沿语音大模型技术对高德丰富产品形态的赋能。 具体职责包括但不限于: 1、对语音合成、自然语言处理、音视频多模态融合和大模型等方向感兴趣,独立研究并完成指定课题; 2、通过机器学习和人工智能技术来提升甚至重新定义音频内容创作工作,产出下一代超自然语音合成技术并应用于高德出行业务场景。
团队介绍: 高德语音技术部,是负责高德自研全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音识别、模型服务与推理、大规模语音IP定制服务等。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/A3TWtfwlqGdkC6oNHrkFaw ) 工作职责: 1、ASR系统搭建与优化: 主导出行场景的语音识别系统设计与实现,满足高噪声、多语种、方言等复杂场景下的语音识别需求; 针对出行场景的特殊性(如驾驶环境噪音、多用户交互等),优化提升识别准确率和实时性; 构建高可用的ASR服务框架,支持大规模数据训练、模型迭代及线上服务部署; 2、语音自监督表征与token化: 参与探索基于自监督学习(如Wav2Vec 2.0、HuBERT等)的语音表征方法,设计轻量化、高效的声学特征提取模型; 参与研究端到端语音语言模型(SpeechLM),推动语音对话系统向端到端方向演进; 3、跨部门协作与产品化: 与产品、工程团队协作,将研究成果转化为可落地的ASR解决方案。参与技术文档编写、算法效果评估及A/B测试,持续优化系统性能。