logo of nio

蔚来多语言ASR资深算法工程师(智能座舱方向)

社招全职7-10年数字技术地点:北京 | 上海状态:招聘

任职要求


学历与专业:计算机科学、电子工程、人工智能、信号处理等相关专业,硕士及以上学历。
技术能力:
熟悉语音开源框架(如 Kaldi、Wenet、ESPnet、Fairseq),熟悉深度学习框架(pytorch、transformer等)
熟悉主流语音识别技术,熟悉语言模型和声学模型的基本原理。
了解解欧洲多语种语言特性…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责蔚来海外智能座舱的多语言语音识别(ASR)算法研发与优化,覆盖主流语种(如英语、德语、法语等)及小语种场景。 
负责国际业务中多语种语音识别系统的需求沟通、性能评估,设计验收方案和验收标准,指导供应商技术改进或提出可行的解决方案,完成供应商交付的语音识别功能验收。
 对语音识别中出现的问题进行数据分析与排查,定位识别效果不佳的原因,并进行改进优化。
 与数据团队合作,构建高质量多语种语音数据集,优化数据标注流程及数据增强策略。
包括英文材料
学历+
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of transsion
社招7年以上

1、负责语音相关技术研究(语音增强、唤醒、声纹、VAD、语音识别等),包括声学模型、语言模型的数据准备、模型训练和解码器优化; 2、主导工程开发,包括模型服务化,海量语音数据处理,模型网络结构优化以及工程优化; 3、跟进业界最新技术,并运用于实际产品。

更新于 2025-02-12上海
logo of transsion
社招5年以上

1. 负责AI语言模型运营团队的日常运营管理,联合算法承担AI算法模型(TTS、ASR、NLU)在各产品线运营的效果提升,负责多门语言的语言学研发并落地AI技术,重点为语音助手业务的功能扩展和体验优化做好服务。 2. 目标规划:通过技术洞察,参与对各产品线的算法各模块和整体模块的效果优化步骤进行规划,并预估资源耗费。 3. 语言研发:针对算法效果提升,多语言需求等,对语言规则进行整理并创新理论,并应用到实际的AI语言技术中。 4. 团队管理:对模型运营团队进行架构设计,人员管理,SOP梳理。 5. 跨部门沟通:与数据生产团队、算法部门、产品团队等沟通,团结一致,完成业务目标。

更新于 2025-02-12上海
logo of quark
社招3年以上技术类-算法

岗位目标: 面向人工智能前沿技术领域,聚焦计算机视觉、自然语言处理、大模型等核心技术,研发高性能、低时延的智能系统,支持语音助手、多语言交互、智能内容生成、视觉理解等多种应用场景,推动AI技术的产品化落地与规模化应用。 具体职责包括但不限于: 核心算法研发与优化: 针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。 负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。 构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 大模型技术研发与应用: 参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。 探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。 研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 系统性能优化与工程化落地: 推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。 协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。 支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 前沿技术探索与跨领域协作: 跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。 与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。

更新于 2025-11-24广州|北京
logo of tongyi
社招3年以上技术类-算法

1.拟人SFT数据构建与策略设计 (1)负责面向超拟人语音交互场景的SFT数据方案设计,涵盖角色人设一致性、多轮对话逻辑、情感表达等维度,构建高质量对话语料。 (2)针对多模态交互、A陪伴等需求,设计角色扮演数据的标注规范,包括身份背景、经典台词、行为模式等细粒度标签。 (3)基于业务场景(如儿童教育、情感陪伴、游戏NPC、模拟面试等)设计符合角色设定的对话逻辑,提升用户交互沉浸感。 (4)建立SFT数据评估体系,针对人设一致性、意图识别准确率、对话流畅度等指标进行量化分析与迭代。 2.SFT数据在语音交互模型中的优化 (1)结合语音交互链路(ASR→LLM→TTS),通过SFT技术优化大模型的对话能力,重点提升上下文理解、情感响应准确度及多轮对话连贯性。 (2)探索角色扮演数据在语音Agent中的应用,例如通过Prompt工程控制对话风格、情绪倾向,实现个性化交互体验。 (3)协同声纹识别、情感计算等技术,构建语音-文本-用户画像对齐的数据集,支持个性化交互(如儿童声线识别、成人情感分析)。 (4)推动SFT数据在低延迟语音交互场景的落地,优化端到端响应效率(如实时打断、长上下文记忆等能力)。

更新于 2025-11-05北京|杭州