小米大模型安全能力研究员-MiMo
任职要求
岗位要求 - 计算机、网络安全等相关方向硕博学历以上,具备 CTF 参赛经历或漏洞挖掘实战经验; - 熟悉大模型训练全链路(预训练、SFT、RLHF) - 具备扎实的系统编程能力(C/C++/Rust 其一) - 了解软件漏洞原理,如缓冲区溢出、UAF、逻辑…
工作职责
我们正在构建下一代具备自主软件安全分析能力的大模型——能够独立发现操作系统、浏览器及关键基础设施中长达数十年未被检出的零日漏洞,并在无人工干预的情况下生成可执行的漏洞利用链。 核心职责 - 负设计并执行面向软件漏洞发现的大模型训练流程,包括预训练数据构造、指令精调与 RLHF/RLAIF; - 研究提升模型在二进制分析、源码审计、模糊测试指导等安全任务上推理能力的方法; - 构建并维护 Agentic 安全评估框架,设计覆盖 CVE 复现、零日发现、漏洞利用链生成的基准测试集; - 与红队工程师协作,对模型的进攻性能力进行双用途风险评估与控制; - 研究长上下文代码推理、跨文件调用链分析、符号执行辅助等关键技术;
1、从事大模型智能体(LLM Agent)的研究; 2、为大模型设计新的记忆系统、工具利用、环境交互、规划、反思等机制,探索复杂任务中的强化学习方法,扩展大模型解决复杂问题的能力边界; 3、开发和优化智能创作Agent,提升其指令遵从能力、安全性和创作能力,打造行业领先的智能创作Agent; 4、前沿算法技术的持续跟踪和创新,包括但不限于代码生成、视频创作、多智能体系统、强化学习、数据合成等领域; 5、参与孵化与智能体技术相关的新产品。
1.终端安全场景威胁检测调查能力建设,根据各类操作系统上报日志进行根因分析,构建关联规则或模型以识别复杂的攻击行为及隐蔽的攻击链; 2.威胁情报安全能力建设,通过深入挖掘多种数据源,分析APT攻击等网络攻击威胁,构建和维护IP信誉画像,提升威胁情报在出站和入站等场景下的质量; 3.二进制样本对抗研究,通过使用逆向工程、大数据分析与机器学习等方法,专注于研究恶意样本的对抗性识别,特别是针对复杂样本场景(如钓鱼欺诈等)进行深度分析和建模。
AI赋能下沉业务,优化业务流程,提升业务效能。 1、大模型高效微调方法,包括数据采样与增强、微调技术探索等,持续提升模型的知识覆盖、推理、工具调用,长文本,RAG等相关能力; 2、大模型对齐方法,包括对齐策略迭代、奖励模型优化、数据构造与优化等,提升模型在安全、可信,风格等方面的表现; 3、基于LLM/VLM的Agent构建,包括通用Agent构建、Computer-Use能力探索、FunctionCall能力评估与增强等; 4、探索前沿的大模型相关技术,包括但不限于MoE、原生多模态、长文本技术、智能体构建等,并将前沿技术应用在业务中; 5、视觉-语言模型(VLM)优化方法,包括视觉-语言的特征对齐、VLM的优化和评估等;
团队介绍 滴滴自动驾驶AI research 团队致力于自动驾驶领域以及机器人领域前沿算法的研究和实际落地,团队成员均毕业于国内外顶尖高校,并在人工智能领域发表了多篇高水平论文 。团队的核心目标是从传统的模块化、规则驱动的系统,迈向以大模型(Foundation Models)为核心,数据驱动、端到端学习的全新架构,来打造通用的行为智能体,应用于自动驾驶,机器人等领域。团队目前的研究内容和探索方向包括但不局限于基于多模态大模型的模仿学习、强化学习、离线强化学习以及决策规划、Agent行为预测等。 主要方向与职责: 你将在以下方向中选定一个或多个方向深入负责,并承担从研发到落地、从算法到系统的端到端职责: (1)前沿研究与探索:紧密跟踪并深入研究多模态大模型、生成式模型的最新进展。并探索和验证将这些前沿技术应用于自动驾驶和机器人领域的可能性。 (2)VLA模型设计与训练:主导或参与设计面向自动驾驶场景或者机器人的VLA大模型,通过将模仿学习和强化学习范式与大模型相结合,使其能够理解周边的三维场景以及人类指令,并输出安全、拟人化的行为决策。 (3)世界模型与闭环仿真:研究和构建能够进行时空预测的“世界模型”作为仿真器,将大模型智能体与仿真器深度结合,从而构建一个可以安全、高效地进行虚拟测试和迭代的闭环仿真环境。 (4)数据驱动与数据闭环:构建高效、可扩展的数据闭环系统。从海量真实数据中自动挖掘高价值的困难场景,长尾场景等,同时保证数据分布的多样性与均衡性。