logo of tongyi

通义研究型实习生-多模态大模型的世界感知能力提升

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


候选人应为:
1.计算机及相关专业的博士或硕士研究生,且对多模态大模型有充分的兴趣;
2.最好有大模型,多模态学习、计算机视…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


近年来,随着人工智能和深度学习技术的迅猛发展,多模态大模型(Multi-modal Large Models)取得了显著的进展。这些模型能够通过处理多种数据类型(如文本、图像、视频、音频等)来完成复杂的任务,与传统单一模态模型相比,展现出更强的理解与推理能力。尤其是在语言、视觉和音频等领域,多模态大模型为诸多实际问题提供了创新的解决方案,并越来越广泛地应用在产业和科研领域,显著提高了自动化和智能化的水平。
本项目将着眼于以下几个层面技术,以推进多模态大模型对于世界的感知和交互:
1.动态视内容的理解:提升多模态大模型可以实现对视频内容的自动理解与分析能力。
2.提升模型对于图像中人类知识的理解的识别水平。 
3.多模态大模型推理与理解能力的持续提升。
包括英文材料
大模型+
OpenCV+
还有更多 •••
相关职位

logo of alibaba
实习淘天集团研究型实

1.多模态大模型应用研发:基于多模态大模型(MLLM)强大的世界知识与推理能力,研发复杂场景下的主体识别算法,精准定位视频/图文中的核心主体(如开箱商品、主推款),解决遮挡、多实例干扰等难题。 2.细粒度语义对齐与表征学习: 构建统一的多模态表征空间,负责封面、视频、商品图文之间的细粒度语义对齐,提升跨模态检索与粗筛的召回率。 3.判别模型设计: 设计具备“Thinking with Images”能力的判别式大模型,实现对“挂错品”、“封面党”等高阶语义偏差的精细化验证,并探索模型的可解释性(输出决策依据)。 4.模型蒸馏与落地: 参与大模型到轻量化小模型的知识蒸馏(Model Distillation)工作,设计表征-判别联合蒸馏框架,在保障算法精度的同时满足线上业务的高吞吐与低延时需求。 5.前沿技术探索: 跟踪CV、NLP及多模态领域的SOTA技术,结合业务场景进行创新,有机会将成果发表在CVPR、ICCV、ECCV等顶级会议上。

更新于 2026-01-27北京|杭州
logo of amap
实习高德研究型实习生

职位概述 我们正在寻找在视觉-语言-动作(Vision-Language-Action, VLA)领域具有扎实理论基础和丰富实践经验的算法工程师或研究员,致力于构建下一代通用智能机器人系统。你将参与从数据构建、模型设计到仿真训练与实机部署的全链路研发,推动 VLA 大模型在机械臂操作、人形机器人控制等复杂工业与开放场景中的前沿探索与实际落地。 职位描述(Responsibilities) 1. 前沿算法研究与复现 ○ 跟踪 VLA 领域最新进展(如 OpenVLA、RT-2、Pi0、RDT、Diffusion Policy 等),完成 SOTA 算法在仿真与实机环境下的复现与性能分析; ○ 探索基于大模型的端到端机器人决策框架,实现感知→理解→规划→动作的闭环。 2. VLA 模型架构设计与优化 ○ 设计面向工业场景的 VLA 模型结构,重点解决多模态特征对齐、动作序列生成、推理效率优化等问题; ○ 提升机械臂在复杂任务中的操作精度、泛化能力与鲁棒性。 3. Scaling 研究与泛化能力提升 ○ 开展 VLA 的 scaling law 研究,涵盖数据规模、模型结构、机器人构型等维度; ○ 实现长序列任务执行、跨任务技能迁移与动作泛化,在更复杂的工厂或开放环境中验证模型上限。 4. 数据系统与自动标注开发 ○ 参与多模态大模型所需的数据清洗、自动标注与增强系统的开发; ○ 探索高效的数据合成方法(如 sim2real 数据生成、LLM 辅助标注),保障数据质量与多样性。 5. 仿真训练与真实部署 ○ 基于 Isaac Sim / Gym / Lab、MuJoCo 等平台搭建高保真仿真环境,构建强化学习与模仿学习训练框架; ○ 设计 real2sim2real 迁移策略,加速算法从仿真到现实世界的部署; ○ 具备实机调试经验,能独立完成模型在机械臂或人形机器人上的部署与迭代。

更新于 2025-10-31北京
logo of amap
实习高德研究型实习生

团队介绍 POI智能化使命是通过高质量高效率低成本的智能化手段及先进生产力,数字化还原真实世界POI,保障POI数据的时效性、正确性和完备性,作为高德用户信息获取、交易履约和出行体验的基础。每个POI背后都有精彩的故事,我们作为链接POI和用户的第一步,每一分努力都是与现实世界的一次互动。 职位描述 我们需要NLP和多模态大模型方向的算法工程师,负责对地图生产资料、互联网情报、搜索日志、用户反馈等非结构化文本进行分析和信息抽取,负责理解高德用户的到达行为,融合人地大数据,构建知识图谱和智能推理能力,打通数据生产和前台业务,使得用户获得更加智能的出行和服务体验。 1、参与和负责POI产线的NLP算法部分,包括POI的NLP基础功能服务、多模态名称融合生成、名称质检模块、名称纠错模块等; 2、搭建POI的NLP基础服务平台,实现以POI为核心实体的地图数据图谱,为高德的POI搜索、推荐业务提供完备信息; 3、配合其他POI采集、挖掘、调度、聚合业务,建模NLP任务,提供准确且有效的NLP信息; 4、积极地探索和研究NLP的应用和认知领域,结合地图场景,提供更加全面且完备的服务;

更新于 2025-08-01北京
logo of amap
实习高德研究型实习生

我们正在寻找对世界模型与端到端自动驾驶技术充满热情的算法实习生,加入我们的前沿技术研发团队。您将专注于端到端自动驾驶算法的研发,推动其在智能驾驶中的落地应用,为用户提供更安全、更高效的出行体验。 主要职责 1、世界模型与建图研发:开发基于多传感器融合的世界模型,实现高精度地图构建与动态场景理解。 2研究基于NeRF、3DGS等技术的三维场景表示方法,提升地图生成的效率与精度。探索语义地图构建技术,结合深度学习实现道路、车道线、交通标志等元素的自动标注与更新。 3、端到端自动驾驶算法研发:研究端到端自动驾驶算法,结合强化学习、模仿学习等技术,实现从感知到决策的全流程优化。开发基于Transformer架构的多模态融合模型,提升自动驾驶系统的鲁棒性。 4、优化端到端模型的推理速度与计算效率,支持实时决策与控制。模型优化与性能提升:针对自动驾驶场景,优化模型的推理速度和资源占用,确保高性能与低延迟。 5、探索适合大模型的压缩与加速技术(如量化、剪枝、知识蒸馏),适配车载硬件平台。 6、前沿技术探索:持续跟踪世界模型、端到端自动驾驶、具身智能等领域的最新技术趋势。提出创新性解决方案,结合业务需求推动技术突破。

更新于 2025-03-27北京