logo of tongyi

通义通义实验室-多模态交互算法专家-通义百聆

社招全职2年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机或通信专业硕士及以上学历。
2. 具有2年以上多模态交互或语言理解算法研发经验,以下领域至少精通一项:
(1)多模态联合建模(语音+视觉/文本等)。
(2)对话系统设计及开发。
(3)口语语言理解。
(4)多智能体交互决策。
3. 精通基于深度神经网络机器学习算法,熟悉TransformerGPTLLM算法原理,掌握 AI 产品开发的开源工具和框架,具备优秀的编程能力。
4. 具备以下经验者加分:
(1)在顶级会议或期刊上发表过相关领域的论文。
(2)有业界前沿的语音多模态交互或数字人交互系统的算法经验。

工作职责


1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。
2. 多模态交互:
(1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。
(2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。
(3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。
3. 音视频内容理解:
(1)转写内容后处理 - 书面化、标点、分段分章节。
(2)音视频分析 - 分角色、语种判别、视频场景划分。
(3)口语内容长篇章理解及生成。
4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于:
(1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。
(2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。
5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。
包括英文材料
学历+
算法+
系统设计+
智能体+
机器学习+
Transformer+
GPT+
大模型+
深度神经网络+
数字人+
相关职位

logo of tongyi
社招3年以上技术类-算法

团队介绍: 我们是阿里巴巴通义实验室语音团队,在音频AI领域持续推动技术创新与产业落地。我们的成果包括: 1. ModelScope平台语音/音频板块核心算法团队 2. FunASR、CosyVoice、3D-Speaker等开源社区发起者与核心维护团队 3. 通义听悟(tingwu.aliyun.com)音频及语义算法团队 4. 阿里云智能语音交互及灵积语音模型服务核心算法提供方 岗位职责: 1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。

更新于 2025-10-16
logo of tongyi
社招3年以上技术类-开发

通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的优化、落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们共同探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 1. 探索多模态理解与生成大模型的技术边界,支持多模态模型的功能迭代和推理性能优化。 2. 构建极致性能的实时流式输入/输出系统,提供百毫秒级别的端到端延迟体验。 3. 建设超低延迟、高可用、可扩展的分布式模型服务系统,通过提升模型吞吐和并发,提供最普惠的AI模型服务。 4. 分析和解决复杂的软硬件技术问题,跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。

更新于 2025-09-25
logo of tongyi
社招3年以上技术-基础平台

团队介绍: 通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 职位描述: 1. 探索应用多模态理解与生成大模型,并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统,支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用,推动多模态模型的落地和应用,研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题,提供可靠的技术解决方案。 跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。 5. 撰写技术文档,包括设计规范、操作手册和最佳实践指南。

更新于 2025-09-02
logo of tongyi
社招5年以上技术类-算法

【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责通义万相多模态世界模型的Reward Model构建,包括但不限于:基模型评价维度和benchmark构建,构建强化学习Reward Model和有效RL算法,结合线上用户反馈挖掘模型缺点、持续迭代,实现和人类评测和偏好对齐。 2.负责通义万相多模态世界模型的数据建设,包括但不限于:视频、图像、音频、文本等多模态数据集建设,人类偏好数据pipleline建设,为图像模型、音视频模型、交互式世界模型等基础模型迭代提供有效数据供给。

更新于 2025-08-28