logo of tongyi

通义研究型实习生-基于多模态大模型的人机交互技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、计算机/人工智能/认知科学等相关专业在读硕士/博士;
2、有扎实的理论基础,对大模型、多模态建模、强化学习等相关技术研究感兴趣;
3、加…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 
1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式;
2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 
3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 
4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。
包括英文材料
大模型+
强化学习+
NeurIPS+
还有更多 •••
相关职位

logo of xiaohongshu
实习大模型

【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。

北京
logo of amap
实习高德研究型实习生

一、团队介绍 高德视觉技术中心为高德业务提供全面的核心视觉技术,是高德时空互联网领域重要的技术驱动力。我们专注于图像识别、点云识别、三维重建和传感器融合定位等领域, 我们致力于研究和开发业内领先的感知、SLAM、重建和多模态大模型等算法, 促科技创新,与生态共进,连接真实世界,做好一张活地图,让出行和生活更美好! 通过视觉技术中心的春季实习生项目,高校学生通过此项目可以接触到高德真实的业务场景和海量时空大数据,在优秀的前辈与高德技术人交流学习中加速成长。我们希望更多优秀的高校同学加入我们,一起打造极致的算法和产品体验。 二、基本要求 面向预期于26、27届毕业的同学,可以连续实习至少三个月的同学优先。实习地点:北京,我们将提供有竞争力的实习薪酬和充足的训练资源。 三、算法实习生 职位描述 团队主要聚焦视觉、矢量地图、多模态大模型技术,我们期待你的工作将覆盖以下至少一个技术方向: 1. 探索自动驾驶场景下的在线感知、建图、关联等前沿技术,包括但不限于矢量地图构建、矢量地图关联等; 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等;

更新于 2025-03-27北京
logo of aliyun
实习阿里云研究型实习

职位描述: 1、参与Agent系统的原型构建与落地,探索提升Agent自主理解、规划与执行任务能力的新思路与方法; 2、优化Agent的对话交互机制,尝试新颖的交互方式,以提升用户体验和任务完成的流畅性与智能性; 3、研究并实验Agent的知识整合与上下文记忆管理方案,探索更高效、智能的信息组织与检索技术,支持Agent进行更深层次的思考; 4、探索Agent与系统工具、API的智能协同策略,参与设计和验证更鲁棒、灵活的工具调用与任务规划流程,鼓励提出创新交互方案; 5、针对特定复杂场景,调研并实践Agent解决用户实际问题的创新路径,挑战并拓展Agent的能力边界。

更新于 2025-07-02杭州
logo of aliyun
实习阿里云研究型实习

城市视频计算场景下的视图聚档,是指将来自城市摄像头下的人机非脸抓拍数据按照自然人唯一身份汇聚为一个个类簇,是实现城市人员ID化的一个非常核心的技术体系。围绕该场景,本项目拟解决如下问题: 1、基于多模态聚类算法、簇表征学习、图神经网络、同人识别模型算法等,持续提升聚类和归档过程中的准确率、召回率; 2、与多模态大模型、三维视觉分析等热门技术结合,优化聚档流程,扩展聚档应用范畴; 3、探索主动聚类、实时聚类等前沿方向,定义视图聚档技术发展的新路标; 4、基于时空轨迹分析、关系分析等数据分析算法,提升档案数据的挖掘价值。

更新于 2025-06-12杭州