logo of tongyi

通义通义实验室-多模态交互算法专家-通义百聆

社招全职2年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机或通信专业硕士及以上学历。
2. 具有2年以上多模态交互或语言理解算法研发经验,以下领域至少精通一项:
(1)多模态联合建模(语音+视觉/文本等)。
(2)对话系统设计及开发。
(3)口语语言理解。
(4)多智能体交互决策。
3. 精通基于深度神经网络…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。
2. 多模态交互:
(1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。
(2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。
(3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。
3. 音视频内容理解:
(1)转写内容后处理 - 书面化、标点、分段分章节。
(2)音视频分析 - 分角色、语种判别、视频场景划分。
(3)口语内容长篇章理解及生成。
4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于:
(1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。
(2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。
5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。
包括英文材料
学历+
算法+
系统设计+
智能体+
机器学习+
还有更多 •••
相关职位

logo of tongyi
社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2026-03-25北京|杭州
logo of aligenie
社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发,通过深入理解全链路多模态交互技术,推进大模型增强的语言交互技术能力建设。 2. 多模态交互: (1)端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。 (2)多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。 (3)多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解: (1)转写内容后处理 - 书面化、标点、分段分章节。 (2)音视频分析 - 分角色、语种判别、视频场景划分。 (3)口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景,包括但不限于: (1)消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。 (2)内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态,通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2026-04-02北京|杭州
logo of tongyi
社招3年以上技术类-算法

1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。

更新于 2026-04-02北京|杭州
logo of aligenie
社招3年以上技术类-算法

1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。

更新于 2026-04-02北京|杭州