小红书多模态/视觉大模型理解和生成算法实习生

实习兼职内容理解2026-01-04地点：北京状态：招聘

扫码手机上打开

任职要求

1. 熟练掌握深度学习、机器学习、计算机视觉的基础知识，熟悉常用模型的原理、特点及应用，能够结合需要解决的问题选择适当的模型，并设计合理的技术方案； 
2. 良好的科研能力，有成果发表在ICLR、CVPR、ICCV、ECCV、NeurIPS、ICM…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是小红书应用算法部/内容理解算法组，目前专注于内容理解场景的技术落地和产品预研。我们希望寻求优秀在读硕士生/博士生共同突破多模态/视觉大模型理解和生成算法在多模态内容理解行业落地的技术挑战，作为实习生，你将有机会与产品、工程紧密合作，将研究算法应用到实际问题中，并解决有难度有价值的问题，促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于：
1. 计算机视觉：解决视觉理解中指代关系特征归一化和识别研究；
2. 多模态表征：多源数据中多模态表征技术，包括局部/全局匹配、视频表征、多模态表征、对抗性和泛化性等问题。
3. 通用多模态大模型：通用多模态大模型在安全领域理解相关研究，包括强化微调、逻辑推理、多模态理解、幻觉消除及评价机制等。
我们希望在一个和多个方向做出有意义的、创新性的工作。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

机器学习+

OpenCV+

ICLR+

CVPR+

ICCV+

ECCV+

还有更多 •••

登录查看完整学习资料

相关职位

视觉多模态（理解）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。若你对以下一个或者多个方向感兴趣均欢迎投递： 1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力，并同时优化多模态大模型的AI infra。 2）通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体，将相关能力拓展到GUI agent，VLA，以及具身智能场景中。 3）研究理解与生成统一的模型架构，实现跨模态生成与推理的协同优化。工作职责： 1. 多模态 pre-training：开展研究及进行实验，研究内容包括：数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training：迭代 post-training 训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的 test scaling laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-22北京|杭州

高德-多模态大模型算法工程师-空间智能方向-视觉技术中心

社招3年以上技术类-算法

团队介绍：作为中国领先的数字地图内容及导航服务提供商，高德地图日均服务数亿用户出行决策，每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM，AI Agent等核心技术，持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕，更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。作为高德地图的核心技术驱动部门，我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心，推动智能出行与真实世界连接的深度融合。团队gihub主页： https://github.com/amap-cvlab 为何加入我们？ 1. 挑战业界顶尖难题：处理百亿级位置数据，攻克动态世界中海量POI的实时、精准感知与理解，定义未来地图的“AI之眼”。 2. 驱动国民级应用创新：你的技术将直接应用于高德地图数亿用户依赖的扫街榜等核心功能，实现从技术突破到产品颠覆的全流程落地。 3. 置身前沿技术浪潮：在三维地图、世界模型、具身智能等前沿领域进行深度探索与研发。 4. 预研与业务深度结合：在这里，你将同时接触到面向未来的技术预研和支撑亿级用户的业务算法。我们提供从0到1的创新探索环境，也看重从1到N的规模化落地能力。职位描述：我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术，从海量街景图片与视频中自动发现、识别与更新地图POI信息，提升地图数据的鲜度、广度与精度，为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性，你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。主要职责： 1. 前瞻性模型预研与业务驱动研发：探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型（VLM），重点攻克POI变化发现、细粒度属性理解等关键课题，并将创新技术转化为实际业务解决方案。 2. 端到端业务落地与闭环优化：主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。 3. 前沿技术跟踪与创新：持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展，探索技术边界发表高质量论文，实现空间感知理解的学术突破，持续迭代核心算法，达到业界sota。

更新于 2025-12-31北京

日常实习生-多模态及视觉生成大模型安全评测与原生安全机制研究

实习阿里巴巴日常实习

1、参与多模态大模型与视觉生成大模型端到端安全评测体系建设，围绕内容安全、对抗鲁棒性、越狱攻击、防御有效性等方向设计并执行系统化评测方案，推动模型安全能力量化与评估标准完善。 2、参与多模态大模型与视觉生成大模型隐层表征风险感知能力研究，构建面向风险识别/安全判别的内部表征分析框架，探索模型在不同语义空间下的风险感知与决策机制。 3、参与多模态大模型与视觉生成大模型可解释性与模型探针（Model Probing）研究与落地，基于探针技术分析模型内部知识编码、风险表征分布及安全行为形成机制，提升模型安全决策透明度与可解释能力。 4、参与面向多模态理解与视觉生成场景的低侵入式插件化原生安全围栏算法研发，探索轻量、高效、可插拔的安全防护机制，提升大模型原生安全能力与部署灵活性。 5、参与多模态大模型与视觉生成大模型原生安全增强技术的探索与落地，研究以低侵入、最小打扰方式提升目标模型解码阶段安全性的关键技术路径，在保障模型安全性的同时平衡生成质量与用户体验。 6、跟踪国内外大模型安全、模型可解释性及 Runtime Safety Alignment等前沿研究进展，复现相关论文与开源方案，推动研究成果在实际业务场景中的落地应用。

更新于 2026-06-30杭州

微信视觉-多模态大模型高级算法研究员（广州）

社招1年以上WXG公共技术

1.参与微信电商多模态大模型、音视频全模态大模型的建设； 2.持续跟进业界最新的多模态大模型算法，参与多模态大模型的设计、训练、调优及评测等； 3.推进多模态大模型在微信电商内容理解、短视频和音乐内容理解场景中的落地应用。

更新于 2026-06-11北京