蚂蚁金服蚂蚁集团-语音算法专家/高级专家-杭州【AI Force】
任职要求
1、数学、计算机、声学及相关专业,具备扎实的数学功底。 2、熟悉常用的端侧语音相关算法,有端侧唤醒、识别等项目的落地经验。 3、熟悉语音AI相关技术,包括ASR、TTS、VAD语音编解码等,能够针对不同应用场景进行优化。 4、具备良好的技术研究能力,关注语音AI前沿技术,探索大模型应用,并推动合理落地。 5、具备良好的沟通能力、团队协作精神,能推动跨团队合作,解决AI语音技术落地中的复杂问题。
工作职责
1、负责端侧语音交互模型(语音+语义双工)算法研发、协同工程团队落地和性能优化。 2、负责AI产品的语音识别、语音合成算法的应用和落地,提升识别准确率语与语音合成流畅度,及根据业务场景调优音色和综合的用户体验。 3、跟踪前沿语音AI技术和大语言模型在语音领域的结合应用,跟踪业界端到端的语音大模型能力,评估适配方案并推动技术落地。 4、与产品、后端研发团队协作,推动语音AI技术的快速迭代和业务落地。
负责训练端到端的语音或者多模态大模型,实现语音呼入智能客服的极致体验,不断提升机器占比降低人工占比: 1. 高质量训练数据构建,包括业务数据和通用数据; 2. 模型预训练、微调、后训练等; 3. 协调工程团队开发高效的语音智能客服系统; 4. 根据实际业务问题不断迭代系统提升指标; 5. 跟踪业界最新进展,结合业务进行创新,并沉淀为顶会论文。
全面负责定义、设计并实现下一代对话系统的核心算法与交互范式,解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战,探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验,塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为,结合业务场景,制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展,包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准,并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题,包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略,使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题,并通过 RAG 新范式或其他创新方法,显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系,能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统,利用真实用户反馈持续、自动化地优化模型。
1. 需求分析与产品规划: -深入调研开发者、企业客户及行业需求,深入理解各种模型能力,定义大模型开发平台的核心功能(如工作流、Prompt工程、RAG增强、Agent框架等),并可以基于开发平台构建 AI 效果领先的垂直场景/行业解决方案; -制定所负责产品或模块的 Roadmap,平衡技术前瞻性与商业化落地节奏。 2. 产品全生命周期管理: -主导功能设计,输出PRD、原型及交互文档,推动算法、工程团队高效交付,协同运营、销售等团队应对和总结客户需求; -负责产品上线后的迭代优化,基于用户反馈和数据洞察持续提升产品体验。 3. 跨团队协作与生态建设: -协同运营团队,推动开发者生态建设,提升平台活跃度与开发者粘性。 4. 行业洞察与竞争分析: -跟踪国内外大模型平台产品动态,制定差异化竞争策略。
岗位职责: 该职位通过大模型训练、Agent、RAG、N2SQL、NLP、语音处理等技术创新和突破,构建Agent通用平台、大模型训练平台等工具产品,同时支持对话机器人等垂直应用及智能产品的建设。欢迎敢于接受挑战的候选人加入我们,一起赋能企业客户。我们的研究方向包括但不限于: 1、通用大模型、推理大模型预训练、微调、强化对齐等技术的持续研究创新; 2、多语言大模型、领域大模型的训练技术研究与落地; 3、AI数据清洗、加工、合成、自动标注技术研究与落地; 4、文本机器人、语音机器人、质检机器人等客服域技术的研发与落地; 5、多Agent、RAG、N2SQL、自主决策等技术的研究与落地; 6、入呼大模型机器人、外呼大模型机器人研发经验;熟悉VAD, ASR, TTS等语音相关技术; 以上方向擅长其中1个即可