通义研究型实习生-基于多模态大模型的自主代理智能体
实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘
任职要求
‒ 优化通义千问基础模型作为自主代理智能体的能力。 ‒ 配合研发一项自主代理智能体相关的PoC应用项目。 ‒ 在公司政策允许的前提下, 开源或发布技术报告(论文)一项研究成果,以扩大国际影响力。
工作职责
GPT、通义千问等大模型的出现,使自主代理(Autonomous Agent)这一类新的AI应用开始兴起。自主代理旨在将人类用户从琐碎的微观决策、细粒度的任务执行中解放出来,使人类用户只需关注宏观层面的决策。这类AI应用在接收到人类给出的笼统任务描述、原始输入数据后,会尝试自动化地进行任务拆解、一步步地完成一系列拆解后的任务、并根据任务反馈结果实时调整策略或做出响应 尽管当前通义千问可在一定程度上充当自主代理,但在模态的覆盖度、垂直领域的专业性、与人的交互方面还有所欠缺,因此需要投入一定的研发力量优化这方面的效果
包括英文材料
智能体+
https://learn.microsoft.com/en-us/shows/ai-agents-for-beginners/
In this 10-lesson course we take you from concept to code while covering the fundamentals of building AI agents.
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
相关职位
实习研究型实习生
研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。
实习研究型实习生
研究领域: 人工智能 项目简介: 随着多模态大模型的性能持续提升,用户指令的意图理解、路径规划、慢思考决策、精细化执行等方向近期均取得了长足的进步,使得Phone-Use从RPA时代进入智能时代。本项目重点研究Intelligent Phone/Computer Use Agent,从底层领域基座、到上层应用,打造Agent Native Model和AI Native的Agent产品,为业务场景带来新的突破。
实习淘天集团研究型实
希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。
更新于 2025-05-06