网易LLM/VLM研究型 Agent 实习生(开放世界游戏方向)
任职要求
1、计算机/AI/相关专业在读(本科高年级/硕士/博士均可),具备良好的工程实现能力; 2、熟练掌握 Python; 3、对 LLM / VLM / Agent 有实际动手经历(满足任一即可): (1)做过 tool-use / function calling 的 agent; (2)做过 RAG / 向量检索 / memory 原型; (3)做过 multi-agent 协…
工作职责
业务场景:在开放世界游戏环境中,开展游戏内容理解与动态解说,驱动智能体完成指定任务、实现自主探索,并支持多智能体复杂交互等前沿 AI 应用场景。 岗位职责 1、参与开放世界游戏场景下 Agent 相关功能的开发与迭代,包括对话交互、任务流程、工具调用等模块; 2、在现有框架基础上进行功能完善与效果优化,协助提升可用性、稳定性与一致性; 3、参与探索提升 Agent 表现的思路与方案,例如经验复用、反思/自我纠错、策略调整等方向; 4、协助设计与实现基础的 memory 机制(写入、检索、总结/压缩等),并通过实验观察其对任务表现的影响。
研究领域: 人工智能 项目简介: 在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表,目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比,推理过程中可以尝试更多可能性,借鉴强化学习中蒙特卡洛树搜索方法,在生成答案前深入思考,将CoT的思考过程在大模型的内部形成一条内部推理链。同时,将复杂步骤进行分步拆解,在中间尝试多种方法,帮助决策出最终答案。对于Aworld,定位是基于生成式AI技术开发的Agent Framework,一方面能帮助用户解答疑问,另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景,我们无法限制用户输入,用户的诉求非常丰富多样,并且具有非常多的长尾和个性化的查询属性,需要使用复杂的逻辑推理能力进行支持。例如:"帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃",其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力,还需要结合模型自身常识,推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识,在多种约束条件下,分步进行推理,对多种可能方案进行推理、常识、验证,直到找到最终答案,并且将答案呈现给用户。
研究领域: 人工智能 项目简介: 随着Agent技术被广泛应用于生产和日常生活场景,确保Agent框架的安全性与可信性已成为重要的研究课题。目前,Agent安全研究主要集中在大语言模型层面,而针对Agent系统整体架构(如工具组件、记忆系统、检索增强生成(RAG)组件等)的系统性安全评估与可信分析尚未得到充分关注。此外,随着全新形态和功能的Agent不断涌现,包括最近发布MCP agent框架,其可能引发的安全风险亦缺乏有效的评估机制。同时,Agent与工具之间、Agent之间的通信安全问题同样亟待研究。本项目致力于全面开展Agent系统框架的安全研究,提出系统性、综合性的安全评估方案。从模型安全,组件安全、通信安全到运行安全等多个维度,建立科学完善的评估体系,并提出具体的防御解决方案,实现Agent整体框架的可信构建与应用。
研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等
研究领域: 人工智能 项目简介: 【攻击】蚁鉴作为蚁天鉴大模型安全一体化解决方案的重要组成部份之一,聚焦于大语言模型潜在输出内容安全的主动挖掘和模型安全能力的量化评测。随着大模型的应用场景不断扩增,使用场景不断多样化,模态增加,agent组件增加,其暴露出来的潜在风险问题也随之扩大。我们希望通过建立一套自动化选件红队体系,挖掘更多的风险,研发更高攻击成功率的方法。从而更快,更全面地发现风险,评估风险,解决风险。当前评测遇到挑战: 1、如何批量的自动发现扫描未知的安全风险; 2、多模态agent 大模型安全评测方案设计; 3、如何对非API的复杂智能体(例如支小宝)进行评测; 4、大模型其他安全问题的研究,例如:能耗攻击,后门,可解释性等; 【防御】大模型对齐作为蚁天鉴安全护栏核心能力之一,对于不安全或者有攻击性的query,在response的价值观等安全性方面往往能表现出更加优秀的性能,在安全链路中发挥着及其重要的作用。 然而,内容安全大模型依然存在大模型的不足: 1. 与语言模型相比,多模内容安全大模型在内容的理解和生成存在许多跨域风险的理解与对齐问题。 2. 幻觉问题,对于一些低频知识依然存在幻觉,特别是在涉政场景,幻觉问题的影响会被放大。 3. 模型难以可控生成,对于一些紧急badcase修复和业务调整依然需要大量数据重新训练成本较高,无法进行及时高效地局部模型知识更新。 4. 推理模型安全性研究与防控。