千问千问C端事业群-多模态交互算法专家-杭州

社招全职3年以上技术类-算法2026-01-28地点：杭州状态：招聘

扫码手机上打开

任职要求

1.硕士及以上学历，计算机科学、人工智能、自动化、人机交互、信号处理等相关专业，具备扎实的人工智能、自然语言处理与计算机视觉理论基础；
2.有3年以上多模态算法预研或工程落地经验，有多模态意图识别、任…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责全模态交互系统的算法研发，包括但不限于多模态意图理解、上下文感知、复杂任务分解、GUI理解、工具调用等功能的实现；
2.设计先进的全模态融合与推理算法，确保系统在各类真实场景中的鲁棒性与响应效率；
3.跟踪全模态大模型发展趋势，包括SFT、RL、多模态对齐等技术，探索前沿技术在产品中的落地应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

OpenCV+

还有更多 •••

登录查看完整学习资料

相关职位

千问C端事业群-语音多模态交互算法专家-杭州/北京/上海

社招2年以上技术类-算法

1. 负责研发语音端到端、语音Agent、多模态交互、语音实时同传等任务的基础研究和应用落地； 2. 负责研究语音生成与理解一体化模型架构、强化学习、统一的语音表征等技术方向； 3. 跟踪并研究实现业内顶尖成果，结合业务场景实现算法的工程化部署。

更新于 2026-03-25北京|杭州|上海

通义实验室-多模态交互算法专家-通义百聆

社招2年以上技术类-算法

1. 负责通义实验室多模态口语交互的算法研发，通过深入理解全链路多模态交互技术，推进大模型增强的语言交互技术能力建设。 2. 多模态交互：（1）端到端多模态联合建模 - 语音/视觉/文本等模态融合并应用于人机交互场景。（2）多模态交互应用算法 - 意图动态规划、多智能体协作、多任务推理、主动交互。（3）多模态对话系统设计 - 多轮交互状态管理、情境感知、情感理解及生成控制。 3. 音视频内容理解：（1）转写内容后处理 - 书面化、标点、分段分章节。（2）音视频分析 - 分角色、语种判别、视频场景划分。（3）口语内容长篇章理解及生成。 4. 探索多模态口语交互技术落地于实际应用场景，包括但不限于：（1）消费电子-智能穿戴实时交互、手机多模态助手、具身机器人环境感知。（2）内容消费-音视频媒资、会议场景、电销通话多模态理解等。 5. 持续关注行业前沿动态，通过专利申请、论文和技术报告等形式提升团队的技术影响力。

更新于 2026-03-25北京|杭州

通义实验室-多模态交互算法专家-通义百聆

社招2年以上技术类-算法

更新于 2026-04-02北京|杭州

通义实验室-语音大模型算法专家/高级专家-多模态交互

社招3年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地。 2. 参与语音合成与识别技术在业务场景落地，解决落地过程中的前沿问题，持续优化语音合成与识别核心技术效果。 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术，持续探索语音技术的新能力和新应用。

更新于 2026-02-11北京|杭州