小红书生成式大模型安全防护算法专家
任职要求
任职要求 1.计算机、人工智能相关专业硕士及以上学历,3年以上AI安全、内容风控或相关算法领域经验 2.具备以下至少一个领域经验:AIGC检测与识别技术、大模型安全与对齐研究、多模态内容理解与风控、对抗样本与攻防技术 3.熟…
工作职责
职位概述 负责构建小红书AIGC安全检测与防护的核心算法体系,研发先进的生成式内容识别与风险管控技术,保障平台内容安全与用户体验。 主要职责 1.构建生成式大模型安全防护体系,包括但不限Safety Alignment、恶意提示词检测、输出内容过滤、滥用行为识别等,搭建完整防护链路 2.研发AIGC检测算法,覆盖文本、图像、视频等多模态内容识别,搭建发布主动校验、传播被动检测和处置的完整AIGC识别标识链路 3.通过agentic等技术,设计生成式大模型背靠背攻防演练方案,形成数据飞轮 4.跟踪前沿生成式AI技术演进,预判新型安全风险并研发应对方案,优化检测算法性能和推理成本 5.协同产品、运营、法务、GA团队,保障新产品功能的安全合规与用户体验
1. 大模型攻击研究 ● 针对大语言模型(LLM)、多模态模型(VLM)、智能体(Agent)等开展安全性与幻觉问题研究,系统化识别模型在对抗样本、越狱攻击、数据投毒、隐私泄露、注入、越权等方面的脆弱点; ● 设计并优化大模型对抗攻击算法,研究 Prompt 注入、自动化越狱策略与生成式数据增强方法,用于模拟实战攻击与安全性评估; ● 构建覆盖文本、图像、语音等多模态、agent场景的攻击方法库,支撑红队测试与模型安全基准建设。 2. 大模型防御机制 ● 研究大模型输入/输出层面的安全检测与防御机制,开发 Prompt 过滤、上下文改写、敏感内容抑制等方法; ● 构建跨模态、多层次的安全防护框架,提升 LLM/VLM/Agent 在实际应用中的鲁棒性。 3. 大模型安全对齐 ● 探索使用SFT、RL、MoE、RAG、Editing等对齐方法,提升模型的内生安全能力; ● 研究有害内容规避、幻觉抑制、安全对齐评测等关键技术,推动安全性融入模型全生命周期。 4. Agent 安全 ● 研究 Agent 在memory存储、多工具调用、链式推理中的攻击面与潜在风险,识别敏感数据泄露、工具滥用、意图篡改、海绵攻击等新型威胁; ● 设计 Agent 安全管控机制,包括权限控制、任务隔离、调用审计等,确保复杂场景下 Agent 的安全可控。
职位概述 作为小红书Trust-and-Safety团队核心成员,负责制定生成式大模型相关安全防护和内容治理策略,保障生成式应用的安全合规性,优化AIGC内容在平台上的检测和标识。 主要职责 1.负责生成式大模型安全防护产品策略的规划、设计和迭代,包括Safety Alignment、发prompt injection、反model jailbreak、风险生成内容过滤和实时检测机制。 2.负责设计多模态 AIGC 安全检测体系(文本/图像/视频),覆盖违规内容识别、伪造判定、真实度评估、深度伪造检测、模型生成技术追踪等方向。 3.持续跟踪和分析当前生成式AI技术的发展趋势,收集相关信息,并推动防御手段的更新和升级,以确保系统的安全性。 4.协同算法与研发团队,推动AIGC检测技术落地,优化防护效果和性能指标。 5.监控大模型安全态势,分析潜在风险,制定预防性和应急响应策略。 6.跨部门协调(如GA、安全运营、法务、数据),确保策略与业务目标对齐,并推动规模化应用。 7.跟踪行业法规和最佳实践,保障产品符合国内外安全与伦理标准。
作为蚂蚁集团核心风控技术部门,我们专注于解决业务风险相关的技术挑战与系统建设,覆盖资金安全、数据安全、大模型安全、反洗钱及数字化业务风控等领域。这些业务场景因强对抗性、风险形态多样化、高时效性要求等特性,对技术规模性、系统复杂度、性能极限、智能化水平及可扩展能力提出跨维度挑战。 技术沉淀与突破: 过去数十年,团队基于特征工程、策略体系、模型算法及数据驱动框架,构建了具备行业领先水平的智能风控基础设施,持续守护超大规模业务的安全运行。 未来方向与目标,在大模型技术驱动的新阶段,我们计划联合顶尖人才突破以下核心方向: 大模型驱动的风控基建:研发生成式AI为核心的智能引擎,提升风险识别与对抗能力; 自主进化的防御体系:深度结合业务理解与模型技术,构建风险防护、用户行为分析、产品风险识别的核心能力; 技术前沿探索:攻坚大模型在风控场景中的安全应用、动态对抗机制及可扩展性难题; 我们期待与具备顶尖技术视野与工程能力的候选人合作,共同定义下一代智能风控的技术标准。 结合安全各种风险场景,如黑产攻击,风险防控,权限管理,多模态内容理解,进行大模型算法/工程/应用的全栈/全流程建模,选型,设计,研发,和优化,并在基础设施或者应用有所创新和突破(如Prompt自动优化,SFT自适应,分布式训练编译调度,黑产对抗的强化学习,防控特征/策略的生成,面向对抗的多模态算法/系统设计和优化等)。

1、负责图像、视频、文本等多模态算法的研究与开发,聚焦内容理解与安全防护; 2、探索基于多模态的内容理解技术,并应用于图片、视频等数据的版权保护、溯源追踪、风险识别与内容认证; 3、设计并实现高鲁棒性数字水印系统,支持抗截图、抗转码、抗删除等常见攻击,满足版权标识与泄露溯源需求; 4、研发面向AIGC生成内容的可检测标识技术(Watermarking for Generative Models),实现AI生成内容的自动识别与归属判定; 5、探索优化多模态数据的分类分级算法与风控策略,构建“识别-标识-追踪-响应”一体化安全闭环; 6、跟踪CV与多媒体安全领域前沿技术(如Transformer、GAN、Diffusion模型、多模态大模型),结合业务场景进行技术落地。