蔚来多语言ASR资深算法工程师(智能座舱方向)
任职要求
学历与专业:计算机科学、电子工程、人工智能、信号处理等相关专业,硕士及以上学历。 技术能力: 熟悉语音开源框架(如 Kaldi、Wenet、ESPnet、Fairseq),熟悉深度学习框架(pytorch、transformer等) 熟悉主流语音识别技术,熟悉语言模型和声学模型的基本原理。 了解解欧洲多语种语言特性…
工作职责
负责蔚来海外智能座舱的多语言语音识别(ASR)算法研发与优化,覆盖主流语种(如英语、德语、法语等)及小语种场景。 负责国际业务中多语种语音识别系统的需求沟通、性能评估,设计验收方案和验收标准,指导供应商技术改进或提出可行的解决方案,完成供应商交付的语音识别功能验收。 对语音识别中出现的问题进行数据分析与排查,定位识别效果不佳的原因,并进行改进优化。 与数据团队合作,构建高质量多语种语音数据集,优化数据标注流程及数据增强策略。
1、负责语音相关技术研究(语音增强、唤醒、声纹、VAD、语音识别等),包括声学模型、语言模型的数据准备、模型训练和解码器优化; 2、主导工程开发,包括模型服务化,海量语音数据处理,模型网络结构优化以及工程优化; 3、跟进业界最新技术,并运用于实际产品。
1. 负责AI语言模型运营团队的日常运营管理,联合算法承担AI算法模型(TTS、ASR、NLU)在各产品线运营的效果提升,负责多门语言的语言学研发并落地AI技术,重点为语音助手业务的功能扩展和体验优化做好服务。 2. 目标规划:通过技术洞察,参与对各产品线的算法各模块和整体模块的效果优化步骤进行规划,并预估资源耗费。 3. 语言研发:针对算法效果提升,多语言需求等,对语言规则进行整理并创新理论,并应用到实际的AI语言技术中。 4. 团队管理:对模型运营团队进行架构设计,人员管理,SOP梳理。 5. 跨部门沟通:与数据生产团队、算法部门、产品团队等沟通,团结一致,完成业务目标。
1.拟人SFT数据构建与策略设计 (1)负责面向超拟人语音交互场景的SFT数据方案设计,涵盖角色人设一致性、多轮对话逻辑、情感表达等维度,构建高质量对话语料。 (2)针对多模态交互、A陪伴等需求,设计角色扮演数据的标注规范,包括身份背景、经典台词、行为模式等细粒度标签。 (3)基于业务场景(如儿童教育、情感陪伴、游戏NPC、模拟面试等)设计符合角色设定的对话逻辑,提升用户交互沉浸感。 (4)建立SFT数据评估体系,针对人设一致性、意图识别准确率、对话流畅度等指标进行量化分析与迭代。 2.SFT数据在语音交互模型中的优化 (1)结合语音交互链路(ASR→LLM→TTS),通过SFT技术优化大模型的对话能力,重点提升上下文理解、情感响应准确度及多轮对话连贯性。 (2)探索角色扮演数据在语音Agent中的应用,例如通过Prompt工程控制对话风格、情绪倾向,实现个性化交互体验。 (3)协同声纹识别、情感计算等技术,构建语音-文本-用户画像对齐的数据集,支持个性化交互(如儿童声线识别、成人情感分析)。 (4)推动SFT数据在低延迟语音交互场景的落地,优化端到端响应效率(如实时打断、长上下文记忆等能力)。
技术领导与架构: 负责翻译/同传类App的整体技术架构设计、技术选型与攻坚,确保应用的高性能、高可靠性与可扩展性。 核心功能开发: 主导实现实时音频流处理功能,包括低延迟采集、降噪、回声消除(AEC)、语音活动检测(VAD)。 主导实现音视频同步录制、播放与实时处理逻辑。 深度集成并优化云端或端侧AI语音识别(ASR)、机器翻译(MT)、语音合成(TTS) 引擎的SDK。 实现复杂的多语言UI与交互逻辑,如对话模式、字幕实时渲染、会议记录等。 性能优化: 持续优化应用的性能、内存占用和功耗,特别是在后台长时间运行及处理高强度音频任务时的稳定性。 代码与质量: 编写高质量、模块化、可维护的代码;建立并推行代码规范;主导Code Review,提升团队整体技术水平。 协作与沟通: 与产品经理、设计师、后端工程师及AI算法工程师紧密协作,共同定义API接口,推动产品迭代。