商汤Agentic VLM实习生

社招全职算法研究2026-01-09地点：杭州 | 深圳状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机、电子信息、人工智能、自动化、交通工程、模式识别、数据科学、应用数学及相关专业（格外优秀本科生也考虑）
2. 有 image generation, text-to-image, CV项目和Agentic AI 和强化学习 经验者优先，熟知国内外各个开源大模型的候选人优先
3. 有 RAG项目和Agentic LLM经验者（RAG pipeling: pre-retrieval, post-retrieval, evaluation, 模型调优等）优先
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 支持研究并实现创新算法（Agentic Vision Language Model和Image Generation）:通过agent与用户的多轮交互，识别用户意图，在低成本的前提下实现有效的、多样的image generation
2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题；
3. 跟进前沿基础研究进展，持续迭代 Agentic VLM相关算法或框架，在通用数据集和业务场景数据集上持续迭代算法的性能及精度，在顶级学术会议上发表研发产出
4. 与软件工程师紧密协作，支撑创新算法在产品上可扩展的实时的实现

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

模式识别+

数据科学+

强化学习+

大模型+

RAG+

ICLR+

NeurIPS+

还有更多 •••

登录查看完整学习资料

相关职位

Agentic VLM实习生

实习算法研究

1. 支持研究并实现创新算法（Agentic Vision Language Model和Image Generation）:通过agent与用户的多轮交互，识别用户意图，在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题； 3. 跟进前沿基础研究进展，持续迭代 Agentic VLM相关算法或框架，在通用数据集和业务场景数据集上持续迭代算法的性能及精度，在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作，支撑创新算法在产品上可扩展的实时的实现

更新于 2026-01-09杭州|深圳

研究型实习生-Agentic reasoning在AGI产品下的研究及落地

实习研究型实习生

研究领域：人工智能项目简介：在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表，目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比，推理过程中可以尝试更多可能性，借鉴强化学习中蒙特卡洛树搜索方法，在生成答案前深入思考，将CoT的思考过程在大模型的内部形成一条内部推理链。同时，将复杂步骤进行分步拆解，在中间尝试多种方法，帮助决策出最终答案。对于Aworld，定位是基于生成式AI技术开发的Agent Framework，一方面能帮助用户解答疑问，另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景，我们无法限制用户输入，用户的诉求非常丰富多样，并且具有非常多的长尾和个性化的查询属性，需要使用复杂的逻辑推理能力进行支持。例如："帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃"，其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力，还需要结合模型自身常识，推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识，在多种约束条件下，分步进行推理，对多种可能方案进行推理、常识、验证，直到找到最终答案，并且将答案呈现给用户。

上海|杭州

研究型实习生 - 面向多模态理解/交互的模型架构设计及其训练推理系统构建与优化

实习通义研究型实习生

1.负责多模态理解大模型的前沿算法研究、实现与优化，重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集，探索数据增强策略，并可能建设高效的数据生产、标注和评估 pipeline，涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向，并提出创新算法或方案，推动学术前沿发展。

更新于 2025-12-02杭州|上海

Summer Camp-AI算法工程师(具身智能与大模型方向)实习生（J100478）

实习ACG

-课题：一见视觉智能体（AI Watchman）-构建通用视觉Agent，接管传统监控软件，打造数字AI值守员 -多模态大模型产业应用研究：探索 VLM 在少样本工业场景下的视觉理解与逻辑推理能力，研究基于 Scaling Law 的数据自动清洗与自动化标注技术 -具身智能感知与决策系统：研究边缘侧的高效感知与执行策略，构建能够理解复杂环境、操作物理/虚拟设备并进行自主决策的智能体 Runtime -自主进化 Agentic MLOps 闭环：参与设计并实现全栈调试的 Skill 池。负责挂载语义诊断、逻辑参数调优、提示词自动变异与网络模型重设等核心能力，实现完整MLOps 工作流闭环

更新于 2026-06-05北京