logo of sensetime

商汤Agentic VLM实习生

实习兼职算法研究地点:杭州 | 深圳状态:招聘

任职要求


1. 硕士及以上学历,计算机、电子信息、人工智能、自动化、交通工程、模式识别数据科学、应用数学及相关专业(格外优秀本科生也考虑)
2. 有 image generation, text-to-image, CV项目和Agentic AI 和强化学习 经验者优先,熟知国内外各个开源大模型的候选人优先
3. 有 RAG项目和Agentic LLM经验者(RAG pipeling: pre-retrieval, post-retrieval, evaluation, 模型调优等)优先
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation
2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题;
3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出
4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现
包括英文材料
学历+
模式识别+
数据科学+
强化学习+
大模型+
RAG+
NeurIPS+
还有更多 •••
相关职位

logo of sensetime
社招算法研究

1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现

更新于 2026-01-09杭州|深圳
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表,目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比,推理过程中可以尝试更多可能性,借鉴强化学习中蒙特卡洛树搜索方法,在生成答案前深入思考,将CoT的思考过程在大模型的内部形成一条内部推理链。同时,将复杂步骤进行分步拆解,在中间尝试多种方法,帮助决策出最终答案。对于Aworld,定位是基于生成式AI技术开发的Agent Framework,一方面能帮助用户解答疑问,另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景,我们无法限制用户输入,用户的诉求非常丰富多样,并且具有非常多的长尾和个性化的查询属性,需要使用复杂的逻辑推理能力进行支持。例如:"帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃",其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力,还需要结合模型自身常识,推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识,在多种约束条件下,分步进行推理,对多种可能方案进行推理、常识、验证,直到找到最终答案,并且将答案呈现给用户。

上海|杭州
logo of tongyi
实习通义研究型实习生

1.负责多模态理解大模型的前沿算法研究、实现与优化,重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集,探索数据增强策略,并可能建设高效的数据生产、标注和评估 pipeline,涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向,并提出创新算法或方案,推动学术前沿发展。

更新于 2025-12-02杭州|上海
logo of baidu
实习ACG

-课题:一见视觉智能体(AI Watchman)-构建通用视觉Agent,接管传统监控软件,打造数字AI值守员 -多模态大模型产业应用研究: 探索 VLM 在少样本工业场景下的视觉理解与逻辑推理能力,研究基于 Scaling Law 的数据自动清洗与自动化标注技术 -具身智能感知与决策系统: 研究边缘侧的高效感知与执行策略,构建能够理解复杂环境、操作物理/虚拟设备并进行自主决策的智能体 Runtime -自主进化 Agentic MLOps 闭环: 参与设计并实现全栈调试的 Skill 池。负责挂载语义诊断、逻辑参数调优、提示词自动变异与网络模型重设等核心能力,实现完整MLOps 工作流闭环

更新于 2026-06-05北京