logo of quark

夸克算法工程师-语音大模型

校招全职智能信息秋季2026届应届生招聘地点:北京 | 杭州状态:招聘

任职要求


1、硕士研究生及以上学历,计算机、软件工程、人工智能等相关专业;                                              
2、具备较强的逻辑分析能力和数学基础;
3、在相关领域国际顶级会议、期刊发表论文,或相关学术会议组织的权威比赛获奖者优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责语音识别/语音合成/Omni/端到端/音乐合成/声纹/语种/情感等方向的算法研究和开发;
2、负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等;                                                                                         3、负责音频理解/语音交互大模型算法研究和开发。
包括英文材料
学历+
深度学习+
还有更多 •••
相关职位

logo of nio
实习算法

1. 参与多模态大模型语音方向的研发工作,包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等 2. 负责多模态大模型前沿算法的探索 3. 负责多模态大模型相关数据的清洗、扩增,提升数据质量 4. 参与多模态大模型的训练、优化和测试,提升模型的性能和稳定性 5. 协助团队完成相关项目的开发和落地,实现技术成果的转化

更新于 2025-07-02上海|北京
logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴亿级用户生态中,定义下一代数字人的“灵魂”与“听觉”,打造具备极致情感表现力和深度理解能力的智能语音交互系统; 如果你,期望探索高表现力语音合成的前沿,突破传统韵律限制,研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术,让数字人的声音不再冷冰冰,而是拥有细腻的情绪起伏和呼吸感; 如果你,期望攻克语音多模态理解的核心挑战,不再局限于单一的文本转译,而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气,实现对用户深层次语义和情绪的精准捕捉; 如果你,期望挑战1v1全双工实时对话的技术难题,研发低延迟的端到端语音到语音生成架构,攻克打断机制、交互反馈等难题,让数字人具备如同真人般自然、流畅的对答体验; 如果你,期望深入研究多模态对齐与融合,将语音特征与视觉表情、文本语义深度绑定,构建“音-意-形”高度统一的数字人交互大脑,解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。 加入我们,你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能,开启数字人交互的新纪元! 研究背景:目前的数字人交互大多是“对讲机”模式(用户说完 -> 系统处理 -> 系统回答),存在明显的延迟和僵硬感。要实现真正的1v1自然对话,需要数字人具备实时监听、情感对齐和即时反馈的能力。 研究课题: 1、流式情感感知: 研究如何在用户说话过程中,实时通过流式音频提取情绪、语气和意图,而非等待整句话结束。 2、打断(Barge-in)与反馈机制: 研发鲁棒的打断检测算法,并让数字人学会自发性口语(如“嗯”、“对”等 Backchanneling),提升交互真实感。 3、预测性生成: 探索如何根据用户已说出的前半句内容,提前初始化 TTS 渲染状态,实现“边听边想边说”的流式效果。 成长支持&成长空间: 1、亲手参与从 0 到 1 定义数字人实时交互标准,体验技术改变数亿人购物方式的成就感。 2、 算力自由: 远离“算力焦虑”,专注于算法创新。 3、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为研究零样本学习、多模态对齐等前沿课题提供土壤。 4、 鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。

更新于 2026-01-21北京|杭州
logo of antgroup
社招3年以上技术类-算法

1、负责支付宝安全助理及智能外呼产品中的语音交互算法方案的研发,深耕 ASR/TTS 核心技术,构建高鲁棒、低延迟、安全可信的下一代语音交互算法体系。 2、关注语音算法前沿技术和发展动态,拓展算法应用场景。

更新于 2025-12-09上海|杭州
logo of alibaba
实习淘天集团2026

参与构建新一代电商语音认知引擎,通过大模型技术实现语音交互与商品理解的双向增强,打造全球领先的电商领域语音智能中枢,支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化,包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设,提升跨模态整体效果。 3. 跟踪、探索大模型方向,将各模态的SOTA能力集成到模型底座上,提升识别以及搜索能力,提升团队技术先进性。

更新于 2025-05-08北京|杭州