通义研究型实习生-基于多模态大模型的人机交互技术研究

实习兼职通义研究型实习生2026-04-07地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机/人工智能/认知科学等相关专业在读硕士/博士；
2、有扎实的理论基础，对大模型、多模态建模、强化学习等相关技术研究感兴趣；
3、加…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

专注于多模态大模型与人机交互技术的创新研究及实践，具体职责包括： 
1、探索多模态大模型（文本/图像/语音/视频等）的交互式应用场景，研发新型人机交互范式；
2、针对多模态交互复杂任务推理进行探索及研究，提升多模态、多跳推理场景下的复杂任务完成率； 
3、优化多模态数据的融合算法，提升模型对复杂交互场景的理解与响应能力； 
4、构建高效的多模态交互系统模型架构，研究低延迟、高并发的实时交互技术方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

强化学习+

NeurIPS+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-基于多模态大模型的流式视频交互和风险推理研究

实习研究型实习生

研究领域：人工智能项目简介：近年来，大语言模型和多模态大模型的迅速发展解锁了众多应用场景，包括视觉指令跟随和长视频理解，最近的一些开源方法也已经在提升流式视频处理能力方面有所进展，但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入，在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新，并尝试挖掘其对视频交互中风险动作和风险对话的识别能力，为依赖视频交互能力的各业务场景带来新的突破。

北京|上海|杭州

研究型实习生-基于多模态大模型的寻路Agent研究

实习研究型实习生

研究领域：人工智能项目简介：随着多模态大模型的性能持续提升，用户指令的意图理解、路径规划、慢思考决策、精细化执行等方向近期均取得了长足的进步，使得Phone-Use从RPA时代进入智能时代。本项目重点研究Intelligent Phone/Computer Use Agent，从底层领域基座、到上层应用，打造Agent Native Model和AI Native的Agent产品，为业务场景带来新的突破。

北京|上海|杭州

研究型实习生-基于多模态大模型的商品动效和视频生成

实习淘天集团研究型实

希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集：构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统：通过探索基于多模态大模型的文本到视频生成技术，以“视频关键帧-高帧率视频-高分辨率视频”为基本路径，完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型，构建视频生成系统，实现输入商品描述文本+商品图片，自动生成原生化的商品微视频和商品短视频。

更新于 2025-05-06北京|杭州

研究型实习生-基于多模态大模型的自主代理智能体

实习通义研究型实习生

GPT、通义千问等大模型的出现，使自主代理（Autonomous Agent）这一类新的AI应用开始兴起。自主代理旨在将人类用户从琐碎的微观决策、细粒度的任务执行中解放出来，使人类用户只需关注宏观层面的决策。这类AI应用在接收到人类给出的笼统任务描述、原始输入数据后，会尝试自动化地进行任务拆解、一步步地完成一系列拆解后的任务、并根据任务反馈结果实时调整策略或做出响应尽管当前通义千问可在一定程度上充当自主代理，但在模态的覆盖度、垂直领域的专业性、与人的交互方面还有所欠缺，因此需要投入一定的研发力量优化这方面的效果

更新于 2024-01-05北京|杭州