蚂蚁金服蚂蚁集团-大模型安全算法专家-杭州/上海
任职要求
1. 硕士及以上学历,计算机、电子信息、网络安全、人工智能等相关专业,具备扎实的机器学习与深度学习基础; 2. 具备大模型安全研究或多模态理解相关经验,熟悉 LLM/VLM/Agent 相关架构与安全问题者优先; 3. 熟悉 PyTorch、TensorFlow 等主流深度学习框架,具备模型设计、…
工作职责
1. 大模型攻击研究 ● 针对大语言模型(LLM)、多模态模型(VLM)、智能体(Agent)等开展安全性与幻觉问题研究,系统化识别模型在对抗样本、越狱攻击、数据投毒、隐私泄露、注入、越权等方面的脆弱点; ● 设计并优化大模型对抗攻击算法,研究 Prompt 注入、自动化越狱策略与生成式数据增强方法,用于模拟实战攻击与安全性评估; ● 构建覆盖文本、图像、语音等多模态、agent场景的攻击方法库,支撑红队测试与模型安全基准建设。 2. 大模型防御机制 ● 研究大模型输入/输出层面的安全检测与防御机制,开发 Prompt 过滤、上下文改写、敏感内容抑制等方法; ● 构建跨模态、多层次的安全防护框架,提升 LLM/VLM/Agent 在实际应用中的鲁棒性。 3. 大模型安全对齐 ● 探索使用SFT、RL、MoE、RAG、Editing等对齐方法,提升模型的内生安全能力; ● 研究有害内容规避、幻觉抑制、安全对齐评测等关键技术,推动安全性融入模型全生命周期。 4. Agent 安全 ● 研究 Agent 在memory存储、多工具调用、链式推理中的攻击面与潜在风险,识别敏感数据泄露、工具滥用、意图篡改、海绵攻击等新型威胁; ● 设计 Agent 安全管控机制,包括权限控制、任务隔离、调用审计等,确保复杂场景下 Agent 的安全可控。
1. 掌握和跟踪大模型、数据安全等方面的国内国际法律、政策、技术标准,结合业务实际产出具有洞察力的分析报告; 2. 识别并处理公司在研发或经营活动中的系统性风险,提出系统性解决建议和合规方案并组织协同团队落实合规方案。 3. 与主管机关的合作,包括但不限于算法备案、大模型备案、APP合规、算法检查、各类调研与问询等; 4. 大模型服务的数据安全的全盘设计与实施,包括但不限于制度、机制、分类分级能力等的建设。
研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等
团队介绍:AI应用与创新团队,立足于抖音集团(抖音、直播、今日头条、番茄小说、财经等),致力于AI技术研究与业务创新赋能,包括:AI x 体验、 AI x 质量、AI x 安全等,助力业务品质与口碑的持续提升。 团队积极向上,工程师文化,技术氛围好,拥有算法(大模型、推荐、机器学习)、工程(后台、前端、大数据)、产品等多种职能岗位,地域覆盖深圳、北京、杭州、上海。 1、负责字节跳动抖音系产品多业务场景下的代码AI提效&提质相关研发工作,包括并不限于代码风险识别、代码数字孪生、智能单测生成等; 2、持续跟进LLM和软件工程的前沿技术,关注AI Coding、UI建站、PRD审计、多Agent协同等前沿技术进展,探索新技术在代码AI方向的应用; 3、深入分析业务和技术问题,和产品/研发/质量/运营等同学密切配合解决,提高项目整体效率和收益。