蔚来多语言ASR资深算法工程师(智能座舱方向)
任职要求
学历与专业:计算机科学、电子工程、人工智能、信号处理等相关专业,硕士及以上学历。 技术能力: 熟悉语音开源框架(如 Kaldi、Wenet、ESPnet、Fairseq),熟悉深度学习框架(pytorch、transformer等) 熟悉主流语音识别技术,熟悉语言模型和声学模型的基本原理。 了解解欧洲多语种语言特性(如法语、德语、西班牙语)及其语音识别中的常见问题,具备多语种语音识别模型训练与调优经验,有落地经验者优先。 英语可作为工作语言,具备跨文化团队协作能力。 我们提供: - 参与全球领先智能电动汽车语音系统的研发,直接影响海外用户的车载体验。 - 与顶尖算法团队合作,接触海量多语种车载语音数据及高性能计算资源。
工作职责
负责蔚来海外智能座舱的多语言语音识别(ASR)算法研发与优化,覆盖主流语种(如英语、德语、法语等)及小语种场景。 负责国际业务中多语种语音识别系统的需求沟通、性能评估,设计验收方案和验收标准,指导供应商技术改进或提出可行的解决方案,完成供应商交付的语音识别功能验收。 对语音识别中出现的问题进行数据分析与排查,定位识别效果不佳的原因,并进行改进优化。 与数据团队合作,构建高质量多语种语音数据集,优化数据标注流程及数据增强策略。
1、负责语音相关技术研究(语音增强、唤醒、声纹、VAD、语音识别等),包括声学模型、语言模型的数据准备、模型训练和解码器优化; 2、主导工程开发,包括模型服务化,海量语音数据处理,模型网络结构优化以及工程优化; 3、跟进业界最新技术,并运用于实际产品。
1. 负责AI语言模型运营团队的日常运营管理,联合算法承担AI算法模型(TTS、ASR、NLU)在各产品线运营的效果提升,负责多门语言的语言学研发并落地AI技术,重点为语音助手业务的功能扩展和体验优化做好服务。 2. 目标规划:通过技术洞察,参与对各产品线的算法各模块和整体模块的效果优化步骤进行规划,并预估资源耗费。 3. 语言研发:针对算法效果提升,多语言需求等,对语言规则进行整理并创新理论,并应用到实际的AI语言技术中。 4. 团队管理:对模型运营团队进行架构设计,人员管理,SOP梳理。 5. 跨部门沟通:与数据生产团队、算法部门、产品团队等沟通,团结一致,完成业务目标。
岗位目标:聚焦语音识别(ASR)、机器翻译及实时字幕生成技术,研发高性能、低时延的AI字幕系统,支持语音助手等场景的多语言交互需求。 具体职责包括但不限于: 1. 负责语音识别(ASR)大模型(声学模型、语言模型、解码器)的算法研发与优化:探索新型神经网络架构,提升复杂场景下的识别准确率与鲁棒性;结合对话系统需求,优化语音到文本的端到端模型,降低时延并提升多轮对话的上下文理解能力;设计并实现高效的语音语料库构建方案,覆盖多语言、多方言及噪声场景,支撑模型训练与迭代。 2. AI字幕与机器翻译系统开发:研发跨语言翻译模型(Transformer/BERT等),解决文本语义对齐与文化适配难题,支持视频字幕、剧本等场景的一键翻译;优化实时流式翻译架构,满足低时延视频字幕生成需求;结合语音识别与翻译技术,构建端到端的语音到字幕系统,提升多语言用户的观看体验。 3. 性能优化与工程化落地:推动模型轻量化、加速推理(如模型压缩、量化、蒸馏)及分布式训练,提升系统在客户端或服务端的运行效率;与工程团队协作,完成算法在移动端、PC端或云端的高效部署与性能调优。
技术领导与架构: 负责翻译/同传类App的整体技术架构设计、技术选型与攻坚,确保应用的高性能、高可靠性与可扩展性。 核心功能开发: 主导实现实时音频流处理功能,包括低延迟采集、降噪、回声消除(AEC)、语音活动检测(VAD)。 主导实现音视频同步录制、播放与实时处理逻辑。 深度集成并优化云端或端侧AI语音识别(ASR)、机器翻译(MT)、语音合成(TTS) 引擎的SDK。 实现复杂的多语言UI与交互逻辑,如对话模式、字幕实时渲染、会议记录等。 性能优化: 持续优化应用的性能、内存占用和功耗,特别是在后台长时间运行及处理高强度音频任务时的稳定性。 代码与质量: 编写高质量、模块化、可维护的代码;建立并推行代码规范;主导Code Review,提升团队整体技术水平。 协作与沟通: 与产品经理、设计师、后端工程师及AI算法工程师紧密协作,共同定义API接口,推动产品迭代。