夸克智能信息-语音大模型算法专家/高级专家-杭州/北京

社招全职2年以上技术类-算法2025-09-19地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能、语音处理、机器学习或相关领域的硕士或博士学位。
2. 至少2年在语音、自然语言、语音翻译、声音复刻、数字人、音乐生成或相关领域的研究研发经验。
3. 有预训练经验，包括但不限于高效训练、强化学习，参与过研发音频、NLP相关的预训练模型及其下游应用者优先；

加分项：
1…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地；
2. 参与语音合成与识别技术在业务场景落地，解决落地过程中的前沿问题，持续优化语音合成与识别核心技术效果；
3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术，持续探索语音技术的新能力和新应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

还有更多 •••

登录查看完整学习资料

相关职位

瓴羊-大模型高级算法工程师/专家（AI专项）-北京/杭州

社招技术类-算法

岗位职责：该职位通过大模型训练、Agent、RAG、N2SQL、NLP、语音处理等技术创新和突破，构建Agent通用平台、大模型训练平台等工具产品，同时支持对话机器人等垂直应用及智能产品的建设。欢迎敢于接受挑战的候选人加入我们，一起赋能企业客户。我们的研究方向包括但不限于： 1、通用大模型、推理大模型预训练、微调、强化对齐等技术的持续研究创新； 2、多语言大模型、领域大模型的训练技术研究与落地； 3、AI数据清洗、加工、合成、自动标注技术研究与落地； 4、文本机器人、语音机器人、质检机器人等客服域技术的研发与落地； 5、多Agent、RAG、N2SQL、自主决策等技术的研究与落地； 6、入呼大模型机器人、外呼大模型机器人研发经验；熟悉VAD, ASR, TTS等语音相关技术；以上方向擅长其中1个即可

更新于 2025-06-10北京|杭州

千问事业部-千问/夸克-大模型高级算法专家-Chat方向

社招3年以上技术类-算法

全面负责定义、设计并实现下一代对话系统的核心算法与交互范式，解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战，探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验，塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为，结合业务场景，制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展，包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准，并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题，包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略，使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题，并通过 RAG 新范式或其他创新方法，显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系，能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统，利用真实用户反馈持续、自动化地优化模型。

更新于 2026-06-05北京|杭州

智能信息-大模型高级工程师/算法专家-全模态方向

社招1年以上技术类-算法

1、主导/核心参与全模态大模型（文本、图像、视频、音频、3D等）的模型架构与核心算法设计、训练及优化，探索跨模态对齐、多模态融合和原生多模态等前沿技术创新； 2、开发全模态大模型在具体场景中的应用落地（如实时AI视频通话等方向），将全模态大模型技术与业务需求结合，推动场景化落地； 3、解决全模态大模型训练和推理的挑战性问题（如模态对齐、长序列建模、高效推理等），跟踪相关领域在学术界与工业界的最新进展等。

更新于 2025-08-19北京|杭州

通义实验室-Android客户端技术专家-北京/杭州

社招5年以上技术类-开发

1. 主导面向ToB场景的Android端多模态交互系统架构设计与核心模块开发，包括语音采集/播放、摄像头控制、传感器融合、UI响应、状态管理等。 2. 与AI算法团队紧密协作，高效集成语音识别（ASR）、语音合成（TTS）、视觉理解（CV）、大语言模型（LLM）等端侧推理模块，优化模型加载、推理调度与资源协同策略。 3. 设计并实现低延迟、高并发的双工对话通道，支持实时打断、动态判停、上下文感知等高级交互能力在端侧的稳定运行。 4. 构建可扩展、可配置的SDK或中间件，支持多行业客户（如车企、手机厂商、IoT设备商）的快速接入与定制化需求。 5. 参与端云协同架构设计，在保障本地交互流畅性的同时，确保数据传输、存储与处理符合GDPR、CCPA、中国《个人信息保护法》等国内外隐私合规要求。 6. 深度集成系统级安全能力，包括应用权限管控、敏感操作审计、安全启动验证、密钥管理及安全OTA升级机制，提升端侧整体安全水位。

更新于 2026-02-05北京|杭州