阿里云阿里云智能-智能体沙箱研发技术专家-北京/杭州
任职要求
1、计算机科学或相关专业,5 年以上系统开发经验。 2、精通 Rust,具备高性能、高并发系统开发经验。 3、深入理解 Linux 内核机制:namespace、cgroups、seccomp、capabilities、SELinux/AppArmor。 4、熟悉容器技术(Docker、containerd)及容器运行时(runc、gVisor)。 5、具备虚拟化或轻量虚拟机(microVM)开发经验,熟悉 Firecracker、QE…
工作职责
1、设计并实现高安全、低延迟的AI Agent沙箱运行时,支持Python、Node.js、Bash等语言执行。 2、构建沙箱生命周期管理系统:支持create、stop、resume、close,实现状态持久化与资源复用。 3、优化沙箱冷启动性能,设计预热池、镜像分层加载、快照恢复等机制。 4、制定安全策略,防范命令注入、路径遍历、资源耗尽等攻击,支持多租户隔离。 5、实现沙箱的可观测性体系:日志、监控、trace、调试入口。 6、编写高质量代码、技术文档,参与代码评审与系统架构演进。
ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景; 3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。
1. Code Agent 强化学习训练体系设计与落地 负责大规模语言模型在后训练阶段(Post-Training)面向 Code Agent 场景的核心算法研发,设计端到端的 RL 训练流程,涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习,探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。 2. 代码环境交互与多步决策优化 构建真实且可扩展的代码执行沙箱环境(Sandbox),支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互;研究多步代码推理与规划算法(如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配),提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。 3. 代码奖励信号设计与奖励模型构建 设计多层次、细粒度的代码奖励信号体系,融合可执行性验证(编译通过、测试用例通过率)、代码质量评估(可读性、效率、安全性)、需求对齐度等多维度反馈;研究如何利用自动化测试生成、变异测试(Mutation Testing)、静态分析工具等构建可靠的过程奖励模型(Process Reward Model),解决代码场景中奖励稀疏、奖励欺骗(Reward Hacking)以及部分可观测性等核心难题。 4. 泛化性与迁移能力提升 研究如何通过后训练阶段的课程学习(Curriculum Learning)、跨语言/跨领域任务混合训练、元学习(Meta-Learning)等策略,提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力;探索代码推理能力向通用推理(数学、逻辑、科学问题)的正向迁移路径,推动模型整体 AGI 泛化水平。 5. 数据飞轮与自我进化机制 设计 Code Agent 的自我对弈与自我改进闭环:通过 Agent 自主探索生成高质量训练轨迹(Trajectory),结合拒绝采样(Rejection Sampling)、自我验证(Self-Verification)、自我修复(Self-Repair)等机制构建可持续的数据飞轮,实现模型能力的迭代自举(Bootstrapping),减少对人工标注数据的依赖。 6. 大规模分布式训练系统与工程协同 与基础架构团队紧密协作,针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点,设计并优化异步/同步混合的大规模分布式 RL 训练架构;解决长序列代码上下文下的显存瓶颈与吞吐效率问题,实现算法创新与系统性能的高效协同。