蚂蚁金服研究型实习生-大模型安全对抗
任职要求
职位要求
- 目前正在攻读计算机科学或相关STEM领域的博士学位,博士一年级至博士三年级,或者发表过高质量文章的研究生一年级同学
- 至少三个月的全职工作
- 具有上述研究领域的相关经验,包括行业经验或作为骨干参与实验室研究
优先录用
- 对技术研究充满热情,具有产生新思想和创新的能力;在自学,问题分析和解决方面表现出色
- 在国际会议或核心期刊发表一份或多份出版物或论文
工作职责
研究领域: 人工智能 项目简介: 蚂蚁集团大安全天穹光年实验室组建于 2016年底。实验室通过对基础软件、设备及新兴系统的安全研究,达到了全球顶尖安全漏洞挖掘能力,同时将基础研究能力与实际业务场景结合,为蚂蚁集团及相关生态金融级基础设施提供深层次安全保障。实验室获得过“天府杯”总冠军、GeekPWN 年度冠军、Pwnie Awards 大奖,并收获了上百次国际顶级厂商漏洞致谢。实验室研究成果多次中稿学术界顶会及工业界顶会,包括 ACM CCS 2021 Best Paper Award、USENIX Security、ASE、Blackhat USA/EU/Asia、CanSecWest、Defcon、Zer0Con、HITB 等。目前团队研究领域包括 AI 安全、Web3 安全、系统安全、虚拟化安全等范畴。目前招聘以下方向:1. 大模型安全研究:对大模型及大模型应用进行安全研究,包括开源大模型攻防、智能体漏洞挖掘、自动化评测工具研究等
研究领域: 人工智能 项目简介: 【攻击】蚁鉴作为蚁天鉴大模型安全一体化解决方案的重要组成部份之一,聚焦于大语言模型潜在输出内容安全的主动挖掘和模型安全能力的量化评测。随着大模型的应用场景不断扩增,使用场景不断多样化,模态增加,agent组件增加,其暴露出来的潜在风险问题也随之扩大。我们希望通过建立一套自动化选件红队体系,挖掘更多的风险,研发更高攻击成功率的方法。从而更快,更全面地发现风险,评估风险,解决风险。当前评测遇到挑战: 1、如何批量的自动发现扫描未知的安全风险; 2、多模态agent 大模型安全评测方案设计; 3、如何对非API的复杂智能体(例如支小宝)进行评测; 4、大模型其他安全问题的研究,例如:能耗攻击,后门,可解释性等; 【防御】大模型对齐作为蚁天鉴安全护栏核心能力之一,对于不安全或者有攻击性的query,在response的价值观等安全性方面往往能表现出更加优秀的性能,在安全链路中发挥着及其重要的作用。 然而,内容安全大模型依然存在大模型的不足: 1. 与语言模型相比,多模内容安全大模型在内容的理解和生成存在许多跨域风险的理解与对齐问题。 2. 幻觉问题,对于一些低频知识依然存在幻觉,特别是在涉政场景,幻觉问题的影响会被放大。 3. 模型难以可控生成,对于一些紧急badcase修复和业务调整依然需要大量数据重新训练成本较高,无法进行及时高效地局部模型知识更新。 4. 推理模型安全性研究与防控。
研究领域: 人工智能 项目简介: 随着Agent技术被广泛应用于生产和日常生活场景,确保Agent框架的安全性与可信性已成为重要的研究课题。目前,Agent安全研究主要集中在大语言模型层面,而针对Agent系统整体架构(如工具组件、记忆系统、检索增强生成(RAG)组件等)的系统性安全评估与可信分析尚未得到充分关注。此外,随着全新形态和功能的Agent不断涌现,包括最近发布MCP agent框架,其可能引发的安全风险亦缺乏有效的评估机制。同时,Agent与工具之间、Agent之间的通信安全问题同样亟待研究。本项目致力于全面开展Agent系统框架的安全研究,提出系统性、综合性的安全评估方案。从模型安全,组件安全、通信安全到运行安全等多个维度,建立科学完善的评估体系,并提出具体的防御解决方案,实现Agent整体框架的可信构建与应用。
研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等