蚂蚁金服研究型实习生-大模型安全攻防算法研究
任职要求
职位描述: 1、大模型对抗攻击:研究大模型(llm,vlm,agent)存在的安全性(安全与幻觉)问题,研究大模型对抗攻击/越狱算法和生成式数据增强。 2、大模型对抗防御:研究大模型(llm,vlm,agent)安全防御算法机制,对大模型输入输出做识别、改写、抑制。 3、大模型训练:内生安全对齐,使用continue pretrain、MoE、RAG、AutoPrompt等方法解决大模型安全相关问题。 职位要求: 1、具有多模内容理解、大模型、AI安全相关工作经验优先; 2、计算机、电子等相关专业背景;具备扎实的机器学习基础和较强的学习能力; 3、熟悉PyTorch、Tensorflow相关深度学习算法框架,有相应的模型设计和实现经验; 4、在机器学习/CV/NLP/人工智能相关领域有顶会论文或者有算法竞赛top经验者优先。 5、有一定工程基础或者网络安全经验者有加分。
工作职责
研究领域: 人工智能 项目简介: 【攻击】蚁鉴作为蚁天鉴大模型安全一体化解决方案的重要组成部份之一,聚焦于大语言模型潜在输出内容安全的主动挖掘和模型安全能力的量化评测。随着大模型的应用场景不断扩增,使用场景不断多样化,模态增加,agent组件增加,其暴露出来的潜在风险问题也随之扩大。我们希望通过建立一套自动化选件红队体系,挖掘更多的风险,研发更高攻击成功率的方法。从而更快,更全面地发现风险,评估风险,解决风险。当前评测遇到挑战: 1、如何批量的自动发现扫描未知的安全风险; 2、多模态agent 大模型安全评测方案设计; 3、如何对非API的复杂智能体(例如支小宝)进行评测; 4、大模型其他安全问题的研究,例如:能耗攻击,后门,可解释性等; 【防御】大模型对齐作为蚁天鉴安全护栏核心能力之一,对于不安全或者有攻击性的query,在response的价值观等安全性方面往往能表现出更加优秀的性能,在安全链路中发挥着及其重要的作用。 然而,内容安全大模型依然存在大模型的不足: 1. 与语言模型相比,多模内容安全大模型在内容的理解和生成存在许多跨域风险的理解与对齐问题。 2. 幻觉问题,对于一些低频知识依然存在幻觉,特别是在涉政场景,幻觉问题的影响会被放大。 3. 模型难以可控生成,对于一些紧急badcase修复和业务调整依然需要大量数据重新训练成本较高,无法进行及时高效地局部模型知识更新。 4. 推理模型安全性研究与防控。
研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等
研究领域: 人工智能 项目简介: 蚂蚁集团大安全天穹光年实验室组建于 2016年底。实验室通过对基础软件、设备及新兴系统的安全研究,达到了全球顶尖安全漏洞挖掘能力,同时将基础研究能力与实际业务场景结合,为蚂蚁集团及相关生态金融级基础设施提供深层次安全保障。实验室获得过“天府杯”总冠军、GeekPWN 年度冠军、Pwnie Awards 大奖,并收获了上百次国际顶级厂商漏洞致谢。实验室研究成果多次中稿学术界顶会及工业界顶会,包括 ACM CCS 2021 Best Paper Award、USENIX Security、ASE、Blackhat USA/EU/Asia、CanSecWest、Defcon、Zer0Con、HITB 等。目前团队研究领域包括 AI 安全、Web3 安全、系统安全、虚拟化安全等范畴。目前招聘以下方向:1. 大模型安全研究:对大模型及大模型应用进行安全研究,包括开源大模型攻防、智能体漏洞挖掘、自动化评测工具研究等
研究领域: 网络与信息安全 项目简介: 随着AIGC技术的快速发展,DeepFake攻击的成本越来越低,攻击规模也越来越大,本项目聚集研究前沿的多模态Deepfake攻防技术,利用大模型等AI技术生成高质量对抗样本,对内部AIGC产品进行高强度、自动化和智能化攻防演练。场景包括:图片凭证、人脸视频、声纹等Deepfake攻防。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。