蚂蚁金服蚂蚁集团-大模型安全算法专家-杭州/上海
任职要求
1. 硕士及以上学历,计算机、电子信息、网络安全、人工智能等相关专业,具备扎实的机器学习与深度学习基础; 2. 具备大模型安全研究或多模态理解相关经验,熟悉 LLM/VLM/Agent 相关架构与安全问题者优先; 3. 熟悉 PyTorch、TensorFlow 等主流深度学习框架,具备模型设计、…
工作职责
1. 大模型攻击研究 ● 针对大语言模型(LLM)、多模态模型(VLM)、智能体(Agent)等开展安全性与幻觉问题研究,系统化识别模型在对抗样本、越狱攻击、数据投毒、隐私泄露、注入、越权等方面的脆弱点; ● 设计并优化大模型对抗攻击算法,研究 Prompt 注入、自动化越狱策略与生成式数据增强方法,用于模拟实战攻击与安全性评估; ● 构建覆盖文本、图像、语音等多模态、agent场景的攻击方法库,支撑红队测试与模型安全基准建设。 2. 大模型防御机制 ● 研究大模型输入/输出层面的安全检测与防御机制,开发 Prompt 过滤、上下文改写、敏感内容抑制等方法; ● 构建跨模态、多层次的安全防护框架,提升 LLM/VLM/Agent 在实际应用中的鲁棒性。 3. 大模型安全对齐 ● 探索使用SFT、RL、MoE、RAG、Editing等对齐方法,提升模型的内生安全能力; ● 研究有害内容规避、幻觉抑制、安全对齐评测等关键技术,推动安全性融入模型全生命周期。 4. Agent 安全 ● 研究 Agent 在memory存储、多工具调用、链式推理中的攻击面与潜在风险,识别敏感数据泄露、工具滥用、意图篡改、海绵攻击等新型威胁; ● 设计 Agent 安全管控机制,包括权限控制、任务隔离、调用审计等,确保复杂场景下 Agent 的安全可控。
研究领域: 人工智能 项目简介: 内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长,特别是推理模型,通过慢思考LongCoT的方式极大的提升了能力达到专家水平,然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程,使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力,从本质上降低安全隐患,而不是简单依赖筛查和围栏过滤。 对于推理模型的内生安全而言,其主要难点在于 1. 可解释性不足,缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义,形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大,目前已有的jailbreak方法依赖大量试错的尝试,很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示,以往工作只关注在最后模型回复阶段,忽略了推理过程可能包含的风险 因此,可以再一下方向进行相关研究 1. 安全高效评估框架:针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练:提出高效的对抗方法,通过posttrain方式提升内生安全 3. 内生安全奖励:在GRPO过程中,除了回复的helpful,也考虑harmless 4. 多模态场景下的推理安全:对图文视频音频等多模态输入,均在思考过程中进行安全检查等
1. 深入理解企业客户的大模型应用场景和功能,输出安全解决方案,以商业化标准交付客户需求; 2. 按照大模型监管的法律法规、技术标准,完成大模型应用场景的日常安全运营,为安全和体验的业务结果负责,持续进行评估与改进。同时,运营动作需要规范化,定期向客户输出审计报告; 3. 完成主管机关发起的大模型合规检查、指令处置工作; 4. 和产研、算法团队深度合作,通过评测、外层护栏、安全运营平台产品等各类能力,提升安全水位。
团队介绍:AI应用与创新团队,立足于抖音集团(抖音、直播、今日头条、番茄小说、财经等),致力于AI技术研究与业务创新赋能,包括:AI x 体验、 AI x 质量、AI x 安全等,助力业务品质与口碑的持续提升。 团队积极向上,工程师文化,技术氛围好,拥有算法(大模型、推荐、机器学习)、工程(后台、前端、大数据)、产品等多种职能岗位,地域覆盖深圳、北京、杭州、上海。 1、负责字节跳动抖音系产品多业务场景下的代码AI提效&提质相关研发工作,包括并不限于代码风险识别、代码数字孪生、智能单测生成等; 2、持续跟进LLM和软件工程的前沿技术,关注AI Coding、UI建站、PRD审计、多Agent协同等前沿技术进展,探索新技术在代码AI方向的应用; 3、深入分析业务和技术问题,和产品/研发/质量/运营等同学密切配合解决,提高项目整体效率和收益。