阿里云阿里云智能-大模型安全算法专家-杭州
任职要求
1. 硕士及以上学历,计算机、人工智能、软件工程、数学、自动化等相关专业优先; 2. 深入理解 Transformer 架构及大语言模型基础知识,熟悉模型评测方案(Evaluation)或具有后训练(Post-training,如 SFT、RL等)经验; 3. 具备卓越的代码工程能力,精通 Python 编程及 PyTorch、TensorF…
工作职责
1. 深度挖掘大模型在复杂任务、长尾场景、不同语种下的弱点,设计并构建具有可扩展性的自动化评测方案及高质量数据集; 2. 参与 LLM-as-a-Judge 方案的设计与实现,训练高精度的 Reward Model(奖励模型),建模人类偏好,提升模型在指令遵循、安全性及复杂逻辑上的表现; 3. 设计高效的 Reward Signal(奖励信号)并合成对应数据,通过强化学习(RL)算法持续提升模型的能力上限与泛化性; 4. 参与开发 Evaluation 与 Reward System 所需的工程框架,简化多任务测试流程,提升大规模模型集成与实验的效率; 5. 跟踪全球大模型最新进展(如 Agent 评测、多模态对齐、自动化数据合成等),推动研究成果在真实业务场景中的落地。
1. 大模型攻击研究 ● 针对大语言模型(LLM)、多模态模型(VLM)、智能体(Agent)等开展安全性与幻觉问题研究,系统化识别模型在对抗样本、越狱攻击、数据投毒、隐私泄露、注入、越权等方面的脆弱点; ● 设计并优化大模型对抗攻击算法,研究 Prompt 注入、自动化越狱策略与生成式数据增强方法,用于模拟实战攻击与安全性评估; ● 构建覆盖文本、图像、语音等多模态、agent场景的攻击方法库,支撑红队测试与模型安全基准建设。 2. 大模型防御机制 ● 研究大模型输入/输出层面的安全检测与防御机制,开发 Prompt 过滤、上下文改写、敏感内容抑制等方法; ● 构建跨模态、多层次的安全防护框架,提升 LLM/VLM/Agent 在实际应用中的鲁棒性。 3. 大模型安全对齐 ● 探索使用SFT、RL、MoE、RAG、Editing等对齐方法,提升模型的内生安全能力; ● 研究有害内容规避、幻觉抑制、安全对齐评测等关键技术,推动安全性融入模型全生命周期。 4. Agent 安全 ● 研究 Agent 在memory存储、多工具调用、链式推理中的攻击面与潜在风险,识别敏感数据泄露、工具滥用、意图篡改、海绵攻击等新型威胁; ● 设计 Agent 安全管控机制,包括权限控制、任务隔离、调用审计等,确保复杂场景下 Agent 的安全可控。
ꔷ 深入理解云安全业务场景(如攻击检测、异常行为分析、数据隐私保护、风险画像等),设计算法解决方案并实现规模化落地; ꔷ 参与设计安全大模型的规划、研发和技术迭代,构建高精度、低时延、可解释的AI模型,解决安全场景特有的技术挑战; ꔷ 负责云安全中心安全助手相关算法研究、开发、架构相关工作,提升安全助手的智能化能力和产品竞争力; ꔷ 负责算法工具链与自动化平台建设,提升算法研发效率,降低业务团队使用门槛; ꔷ 追踪AI与安全交叉领域的前沿技术(如AIGC安全、大模型对抗攻防),推动创新技术在业务场景中的预研与应用。
1. 平台风险治理:深入理解监管合规要求与平台业务发展节奏,结合产品实际能力与行业竞对情况,制定切实可落地的平台安全方案;并具备在业务快速迭代环境中动态调整安全策略的能力,推动安全与业务协同发展而非相互掣肘; 2. 算法安全管控:结合大模型的新能力与新风险特征,系统性设计安全管控框架,综合平衡风险召回率、用户体验、产品性能与稳定性、行业整体水位等多维目标; 3. 知识产权合规:持续跟进国内外 AIGC 领域知识产权重点案例与监管走向,开展系统性合规调研,结合平台业务场景输出具备实操性的治理判断与风险应对建议,协助平台建立主动、前瞻的知识产权合规机制。