logo of antgroup

蚂蚁金服研究型实习生-Agent框架安全性研究

实习兼职研究型实习生地点:上海 | 杭州状态:招聘

任职要求


职位描述:
1、大模型对抗攻击:研究大模型llm,vlm,agent)存在的安全性(安全与幻觉)问题,研究大模型对抗攻击/越狱算法和生成式数据增强。
2、大模型对抗防御:研究大模型llm,vlm,agent)安全防御算法机制,对大模型输入输出做识别、改写、抑制。
3、大模型训练:内生安全对齐,使用continue pretrain、MoE、RAG、AutoPrompt等方法解决大模型安全相关问题。
职位要求: 
1、具有多模内容理解、大模型、AI安全相关工作经验优先;
2、计算机、电子等相关专业背景;具备扎实的机器学习基础和较强的学习能力; 
3、熟悉PyTorchTensorflow相关深度学习算法框架,有相应的模型设计和实现经验; 
4、在机器学习/CV/NLP/人工智能相关领域有顶会论文或者有算法竞赛top经验者优先。
5、有一定工程基础或者网络安全经验者有加分。
6、至少6个月的全职工作。

工作职责


研究领域:
  人工智能
项目简介:
  随着Agent技术被广泛应用于生产和日常生活场景,确保Agent框架的安全性与可信性已成为重要的研究课题。目前,Agent安全研究主要集中在大语言模型层面,而针对Agent系统整体架构(如工具组件、记忆系统、检索增强生成(RAG)组件等)的系统性安全评估与可信分析尚未得到充分关注。此外,随着全新形态和功能的Agent不断涌现,包括最近发布MCP agent框架,其可能引发的安全风险亦缺乏有效的评估机制。同时,Agent与工具之间、Agent之间的通信安全问题同样亟待研究。本项目致力于全面开展Agent系统框架的安全研究,提出系统性、综合性的安全评估方案。从模型安全,组件安全、通信安全到运行安全等多个维度,建立科学完善的评估体系,并提出具体的防御解决方案,实现Agent整体框架的可信构建与应用。
包括英文材料
大模型+
算法+
RAG+
机器学习+
PyTorch+
TensorFlow+
深度学习+
NLP+
AI agent+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 【攻击】蚁鉴作为蚁天鉴大模型安全一体化解决方案的重要组成部份之一,聚焦于大语言模型潜在输出内容安全的主动挖掘和模型安全能力的量化评测。随着大模型的应用场景不断扩增,使用场景不断多样化,模态增加,agent组件增加,其暴露出来的潜在风险问题也随之扩大。我们希望通过建立一套自动化选件红队体系,挖掘更多的风险,研发更高攻击成功率的方法。从而更快,更全面地发现风险,评估风险,解决风险。当前评测遇到挑战: 1、如何批量的自动发现扫描未知的安全风险; 2、多模态agent 大模型安全评测方案设计; 3、如何对非API的复杂智能体(例如支小宝)进行评测; 4、大模型其他安全问题的研究,例如:能耗攻击,后门,可解释性等; 【防御】大模型对齐作为蚁天鉴安全护栏核心能力之一,对于不安全或者有攻击性的query,在response的价值观等安全性方面往往能表现出更加优秀的性能,在安全链路中发挥着及其重要的作用。 然而,内容安全大模型依然存在大模型的不足: 1. 与语言模型相比,多模内容安全大模型在内容的理解和生成存在许多跨域风险的理解与对齐问题。 2. 幻觉问题,对于一些低频知识依然存在幻觉,特别是在涉政场景,幻觉问题的影响会被放大。 3. 模型难以可控生成,对于一些紧急badcase修复和业务调整依然需要大量数据重新训练成本较高,无法进行及时高效地局部模型知识更新。 4. 推理模型安全性研究与防控。

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等

logo of tongyi
实习通义研究型实习生

专注于Agent框架及系统(如DeepResearch等)的研究、探索和开发,具体职责包括: 1. 参与设计和开发基于Qwen模型的智能Agent系统; 2. 研究和实现最新的强化学习(RL)算法,进行实验、训练和调优; 3. 协助团队进行数据收集、环境建模以及Agent的评估与测试; 4. 撰写研究文档、技术报告等,共同打造行业知名度和技术影响力。

更新于 2025-02-24
logo of antgroup
实习研究型实习生

研究领域: 深度学习 项目简介: 专病/慢性病(慢病)的管理是一个长期、复杂且费用高昂的过程,涉及到疾病的筛查、诊断和治疗管理。2024年9月央视网数据,我国慢性病发病率呈上升趋势,中国慢性病确诊人数为4亿。每年各种因素导致的近1030万死亡中,慢性病占比超80%。慢病管理的核心在于实现全生命周期、全病程的规范化、主动式管理。这通常包括患者入组、疾病评估、治疗方案制定、长期跟踪和随访等环节。例如,上海交通大学团队研发的全球首个面向糖尿病基层诊疗的视觉-大语言模型多模态集成智能系统DeepDR-LLM,能够基于患者个体的临床信息生成精准糖尿病管理意见。