夸克智能信息-AI语音研发工程师/专家-北京

社招全职3年以上技术类-开发2025-08-01地点：北京状态：招聘

扫码手机上打开

任职要求

1. 学历要求： 本科及以上学历，计算机科学、电子工程、信号处理、通信工程等相关专业
2. 工作经验： 2年以上语音系统开发经验，有大模型工程开发经验者优先
3. 技术能力：熟练掌握java、C/C++、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责基于语音大模型的voice agent研发工作，包括ASR+LLM+TTS的应用技术以及语音端到端大模型应用工程开发
2.参与语音模块中间件的架构设计与开发，参与语音相关文本大模型链路的开发
3.与算法团队、产品团队、客户端团队紧密合作，解决技术难题，推动产品迭代
4.研究并应用前沿的语音工程技术，持续优化系统性能和用户体验

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

Java+

C+

还有更多 •••

登录查看完整学习资料

相关职位

高德-语音算法工程师/专家-北京

社招1年以上技术类-算法

团队介绍：高德语音技术部，是负责高德全栈语音技术的综合性团队。团队核心技术能力包括：自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景，包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。团队定位是通过前沿语音技术的研究和落地，赋能下一代AI产品创新。具体职责：围绕voice agent/speech language model的研究工作，包括但不限于如下事项： 1. 为满足AGI时代"活人感"语音交互的需求，致力于完成包括但不限于以下目标：复杂声学+时空信息的声学理解、通过图灵测试水平的交互节奏 / 交流内容 / 语音输出，并完成所需的技术创新； 2. 多模态对话大模型的研发、语音对话pipeline方案以及端到端方案的交互能力搭建、全双工交互能力搭建，落地到高德多项agent应用场景； 3. 跟进最领先的语音理解/语音生成/语音交互技术，包括但不限于提出新的技术框架、改进现有的算法、持续提升相关技术及业务指标，鼓励撰写论文及申请专利； 4. 探索前沿方向，如更加高效且合理的模型架构、跨模态（文字/语音/视觉）混合训练的最佳实践、基于speech language model的后训练技术、COT Reasoning in streaming full-duplex、proactive interaction，等等。结合全链路各个agent，持续提升voice agent的交互体验； 5. 海量的语音数据的处理构建：定性分析、定量评估、参与设计自动评估框架，研发 scalable 的改进方案，持续提升数据质量。

更新于 2026-03-31北京

瓴羊-大模型高级算法工程师/专家（AI专项）-北京/杭州

社招技术类-算法

岗位职责：该职位通过大模型训练、Agent、RAG、N2SQL、NLP、语音处理等技术创新和突破，构建Agent通用平台、大模型训练平台等工具产品，同时支持对话机器人等垂直应用及智能产品的建设。欢迎敢于接受挑战的候选人加入我们，一起赋能企业客户。我们的研究方向包括但不限于： 1、通用大模型、推理大模型预训练、微调、强化对齐等技术的持续研究创新； 2、多语言大模型、领域大模型的训练技术研究与落地； 3、AI数据清洗、加工、合成、自动标注技术研究与落地； 4、文本机器人、语音机器人、质检机器人等客服域技术的研发与落地； 5、多Agent、RAG、N2SQL、自主决策等技术的研究与落地； 6、入呼大模型机器人、外呼大模型机器人研发经验；熟悉VAD, ASR, TTS等语音相关技术；以上方向擅长其中1个即可

更新于 2025-06-10北京|杭州

智能信息-Agent应用研发专家/高级开发工程师-北京/广州

社招2年以上技术类-开发

1、负责千问、夸克的Agent应用研发，熟练运用agent相关技术，实现诸多AI应用的快速落地与持续迭代； 2、保障Agent应用系统的稳定、高效运行，帮助业务优化性能和改善系统稳定性，持续提升用户体验； 3、持续跟踪前沿技术趋势，关注并探索引入新技术新方法，持续提升产品技术、工程架构上的先进性。

更新于 2025-11-30北京|广州

钉钉-语音算法-工程师/专家

社招1年以上技术类-算法

语音是人机交互中最自然、最便捷的模态。随着大模型时代的到来，语音AI的研究正从单一任务向多模态、高自然度交互演进。在阿里巴巴，我们的语音技术已深度植入流媒体、直播互动、智能客服、办公会议、AIoT及数字人等多元场景。我们正在寻找志同道合的伙伴，共同探索语音技术在复杂场景下的极限。在这里，你不仅能触达海量的真实数据，更能亲手打造影响亿万用户的交互体验。一段更具挑战、更有成就感的旅程正待开启！岗位职责： 1. 核心算法研发：负责语音信号处理领域的前沿算法研究与落地，包括但不限于语音识别（ASR）、语音合成（TTS）、说话人识别与分离（Speaker Verification/Diarization）、语音增强及端到端语音交互方案； 2. 专项技术突破： ● 声纹与属性识别：负责声纹识别、语种识别以及情绪识别（Emotion Recognition）的算法优化，提升在真实业务场景下的识别精度与跨域泛化能力； ● 音频内容理解：基于语义与声学特征，深度挖掘语音中的情感、意图及环境信息，赋能直播审核、内容分析等业务； ● AI-VAD：研发基于深度学习的高鲁棒性语音活动检测（VAD）算法，解决强噪声、多语者叠加、远场等复杂环境下的起停点检测痛点； 3. 模型工程化落地：推动算法在云端或端侧的部署优化，在保障性能（精度/鲁棒性）的同时，平衡算力消耗与推理延迟； 4. 技术预研：跟踪并探索语音领域前沿技术（如大语言模型与语音的结合、Speech-to-Speech原生端到端交互等）。

更新于 2026-06-05杭州