
智能互联通义实验室-AI交互模型算法专家-北京/杭州
任职要求
1. 计算机、人工智能、电子工程等相关专业硕士及以上学历,3年以上AI模型或音频算法研发经验。 2. 在以下至少两个方向有扎实实践: ①基于神经网络/Diffusion/LLM的语音信号处理(增强、降噪、语音修复等) ; ②语音大模型、视觉-语言模型(VLM)或全模态(Omni)大模型的后训练(CPT/SFT/RL) …
工作职责
1. 负责面向AI手机等ToB场景的多模态交互模型研发,包括语音基础模型、视觉-语言模型(VLM)、全模态大模型的后训练(CPT/SFT/RL)与推理优化。 2. 研发基于神经网络、扩散模型或大模型的端侧音频信号处理算法(如语音增强、降噪、去混响),提升复杂声学环境下的语音交互质量。 3. 构建支持自然打断、精准判停、上下文感知的实时双工交互模型,实现低延迟、高鲁棒性的流式对话体验。 4. 针对端侧资源约束,开展模型压缩、量化、蒸馏及高效部署,确保算法在DSP/NPU等嵌入式平台稳定运行。 5. 与系统、产品团队紧密协作,推动算法从原型验证到大规模商用落地。
大模型为世界建模,Character Model进一步为人建模。对话智能团队,以Character Model训练和应用为核心, 建设 “有趣+有用” 的多语言、多模态类人智能体,打造了通义星尘(角色扮演&IP复刻&类人智能体)、通义晓蜜(智能客服)等大模型时代的核心产品。欢迎对大模型感兴趣的你加入我们,一起开拓大模型时代的人机对话的未来。 岗位职责: 1. 负责Character Model的研究和应用,包括但不限于 与环境交互的多轮RL、Generative Reward Models等技术。 2. 负责 “有趣+有用” 的多语言、多模态类人智能体建设,包括但不限于任务完成、共情/情感、记忆(Memory)、心智(Mind)等技术。 3. 将上述技术在通义星尘、通义晓蜜及其他创新产品中进行大规模应用落地。
1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。
1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。
团队介绍: 通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 职位描述: 1. 探索应用多模态理解与生成大模型,并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统,支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用,推动多模态模型的落地和应用,研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题,提供可靠的技术解决方案。 跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。 5. 撰写技术文档,包括设计规范、操作手册和最佳实践指南。