传音ASR 算法工程师(J11507)
任职要求
1.数学、计算机、自动化、信号处理等相关专业硕士及以上学历,三年以上语音识别实际项目研发经历; 2.深度学习实践经验丰富,熟悉常用的序列识别建模和优化技术,熟悉 HMM,CTC,基于 Attention 的 Seq2Seq 等技术在语音识别方向上的应用(语音识别); 3. 熟悉主流的参数合成式、端到端深度学习的语音合成算法及全链条处理流程(语音合成…
工作职责
1.负责语音相关技术研究(语音增强、唤醒、声纹、VAD、语音识别等),包括声学模型、语言模型的数据准备、模型训练和解码器优化; 2.主导工程开发,包括模型服务化,海量语音数据处理,模型网络结构优化以及工程优化; 3.跟进业界最新技术,并运用于实际产品。
1、负责核心算法研发: 1)负责语音识别(ASR)算法的设计与优化,构建高精度、低延时的语音处理系统; 2)主导语种识别(LID)、说话人分离(SSD)等语音相关技术的研发与落地; 3)深入探索Whisper/FunASR等开源语音项目,结合业务需求进行技术创新与改进; 2、负责技术应用与优化: 1)将语音算法应用于会议转录、实时字幕、语音消息等ToB办公场景; 2)优化语音模型在云端的推理性能,提升资源利用效率; 3)建设语音领域的高质量数据集及评测体系; 3、工程能力建设: 1)深入使用Python进行算法开发,熟练应用PyTorch/TensorFlow搭建训练Pipeline; 2)构建高性能推理框架,探索TensorRT/Triton/OnnxRuntime等加速工具的应用; 4、跨团队协作: 1)与产品团队合作挖掘用户需求,推动语音技术在产品中的创新应用; 2)与工程团队协作完成模型部署,解决端到端落地中的技术挑战; 5、技术前瞻性研究: 1)持续跟踪ICASSP/INTERSPEECH等顶会最新进展; 2)探索语音与大模型结合的创新方向。
1、负责核心算法研发: 1)负责语音识别(ASR)算法的设计与优化,构建高精度、低延时的语音处理系统; 2)主导语种识别(LID)、说话人分离(SSD)等语音相关技术的研发与落地; 3)深入探索Whisper/FunASR等开源语音项目,结合业务需求进行技术创新与改进; 2、负责技术应用与优化: 1)将语音算法应用于会议转录、实时字幕、语音消息等ToB办公场景; 2)优化语音模型在云端的推理性能,提升资源利用效率; 3)建设语音领域的高质量数据集及评测体系; 3、工程能力建设: 1)深入使用Python进行算法开发,熟练应用PyTorch/TensorFlow搭建训练Pipeline; 2)构建高性能推理框架,探索TensorRT/Triton/OnnxRuntime等加速工具的应用; 4、跨团队协作: 1)与产品团队合作挖掘用户需求,推动语音技术在产品中的创新应用; 2)与工程团队协作完成模型部署,解决端到端落地中的技术挑战; 5、技术前瞻性研究: 1)持续跟踪ICASSP/INTERSPEECH等顶会最新进展; 2)探索语音与大模型结合的创新方向。
负责蔚来海外智能座舱的多语言语音识别(ASR)算法研发与优化,覆盖主流语种(如英语、德语、法语等)及小语种场景。 负责国际业务中多语种语音识别系统的需求沟通、性能评估,设计验收方案和验收标准,指导供应商技术改进或提出可行的解决方案,完成供应商交付的语音识别功能验收。 对语音识别中出现的问题进行数据分析与排查,定位识别效果不佳的原因,并进行改进优化。 与数据团队合作,构建高质量多语种语音数据集,优化数据标注流程及数据增强策略。