
商汤Agentic VLM实习生
任职要求
1. 硕士及以上学历,计算机、电子信息、人工智能、自动化、交通工程、模式识别、数据科学、应用数学及相关专业(格外优秀本科生也考虑) 2. 有 image generation, text-to-image, CV项目和Agentic AI 和强化学习 经验者优先,熟知国内外各个开源大模型的候选人优先 3. 有 RAG项目和Agentic LLM经验者(RAG pipeling: pre-retrieval, post-retrieval, evaluation, 模型调优等)优先 …
工作职责
1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现

1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现
研究领域: 人工智能 项目简介: 在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表,目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比,推理过程中可以尝试更多可能性,借鉴强化学习中蒙特卡洛树搜索方法,在生成答案前深入思考,将CoT的思考过程在大模型的内部形成一条内部推理链。同时,将复杂步骤进行分步拆解,在中间尝试多种方法,帮助决策出最终答案。对于Aworld,定位是基于生成式AI技术开发的Agent Framework,一方面能帮助用户解答疑问,另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景,我们无法限制用户输入,用户的诉求非常丰富多样,并且具有非常多的长尾和个性化的查询属性,需要使用复杂的逻辑推理能力进行支持。例如:"帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃",其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力,还需要结合模型自身常识,推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识,在多种约束条件下,分步进行推理,对多种可能方案进行推理、常识、验证,直到找到最终答案,并且将答案呈现给用户。
1.负责多模态理解大模型的前沿算法研究、实现与优化,重点攻克图像/视频理解、视觉问答、跨模态交互等关键任务。 2.参与构建和清洗大规模多模态数据集,探索数据增强策略,并可能建设高效的数据生产、标注和评估 pipeline,涵盖通用数据、视频、OCR等场景。 3.具备技术前瞻性与创新能力,跟踪国际最新技术动态,探索如多模态理解创新架构、音视频理解、Agentic RAG、AI Memory等新方向,并提出创新算法或方案,推动学术前沿发展。