小米AI基础设施研发工程师(Sandbox / 容器化)-MiMo
任职要求
任职要求 1. 熟悉 Linux 系统、进程模型、文件系统、网络、权限控制和资源隔离机制。 2. 熟悉 Docker、containerd、Kubernetes 等容器化和云原生技术,有实际生产环境使用或平台建设经验。 3. 理解 sandbox / 隔离执行环境的核心问题,包括安全边界、资源限制、网络隔离、文件系统隔离、进程生命周期管理等。 4. 熟悉至少一种后端或脚本语言,如 Go、Python、Rust、JavaScript / TypeScript、Shell 等,能够独立开发 infra 工具或平台服务。 5. 具备分布式系统和基础设施工程意识,理解任务调度、队列、服务发现、监控告警、日志系统、故障恢复等常见机制。 6. 对大模型训练、Agent 执行环境、代码运行平台或 RL 训练基础设施有兴趣,愿意深入理解训练系统对 infra 的需求。 7. 具备良好的问题定位能力,能够在复杂系统中分析性能、稳定性和资源利用率问题。 加分项 1. 有大规模 Kubernetes 集群、在线执行平台、CI/CD 平台、Serverless、判题系统、代码沙箱或浏览器自动化平台建设经验。 2. 熟悉 Linux namespa…
工作职责
MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。 随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。 工作职责 1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。 2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。 3. 参与大规模 RL 训练 infra 的 scaling,包括任务分发、资源调度、环境复用、状态隔离、失败恢复、日志采集和性能优化。 4. 建设安全隔离机制,降低模型生成代码、Agent 工具调用和自动化执行带来的安全风险,包括权限控制、系统调用限制、网络隔离、资源限额等。 5. 与模型训练、Agent 框架、数据和评测团队合作,将训练任务需求转化为稳定可用的执行环境和平台能力。 6. 分析大规模训练过程中的系统瓶颈和故障问题,持续优化调度效率、资源利用率、任务吞吐和环境稳定性。 7. 参与内部平台工具建设,包括任务管理、运行监控、日志查询、环境调试、指标看板和自动化运维能力。
一、AI 产品开发(Skill / MCP / Sandbox / 社区) 1.开发和运营 Skill Hub 平台,支持 Skill 的发布、发现、搜索、评分、版本管理与权限控制;打造面向全团队的 AI 工具分发与共享基础设施 2.基于 MCP(Model Context Protocol)协议开发内部工具集成服务,将内部系统(OA、知识库、数据平台等)MCP 化,供 Agent 稳定调用;跟进协议规范演进并在内部落地 3.开发和维护 AI Agent 运行所需的 Sandbox 隔离环境,设计资源限制、网络隔离与文件系统策略,构建生命周期管理能力(创建、挂起、销毁、快照) 4.建设 Skill 社区生态,支持开发者贡献、分享与评审 Skill,降低全团队的 AI 工具接入门槛 5.探索 Chat-UI(流式组件)与 Generative UI(生成式界面)在上述产品中的落地,提升交互效率 二、AI 前沿探索与布道 1.持续追踪 LLM / Agent 领域的新进展(新模型能力、新协议标准、新交互范式),评估其对 Skill Hub、MCP、Sandbox 等产品的影响,及时推动产品迭代与能力升级 2.当行业出现新的 Agent 协议或工具生态(如 MCP 协议演进、新的 Tool Use 规范等),快速跟进并在内部完成适配落地 3.将前沿探索成果转化为团队可用的最佳实践、开发规范或产品特性,避免团队在错误方向上重复建设
负责 AI Agent Infra 建设,提升 AI Agent 产品创新效率,探索生成式 AI 在数字世界的实际应用。 1. 建设 Agent SWE Infra 工程,提升 Agent 相关代码的个性化构建和发布效率; 2. 建设 Sandbox Infra 工程,为各类 Agentic 场景提供高效、稳定、大规模的模拟器、多工具、图形交互的沙箱环境; 3. 建设 Serving Infra 工程,为生产提供通用的 Agent 服务化框架,优化 LLM 和 Agent 性能,保障高可用运行。
1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。

1. 参与 AgentRun 平台核心引擎的设计与开发,构建支持多框架(AgentScope/LangGraph/AutoGen/Dify/ADK 等)兼容的统一 Agent 运行时环境; 2. 负责高并发、低延迟的 Agent 执行调度系统研发,实现任务编排、状态管理、上下文隔离、资源限流与弹性扩缩容; 3. 设计并实现 Agent 工具调用(Tool Calling)的安全沙箱机制,支持 REST、Function Call、插件等多种集成模式,保障执行安全性与稳定性; 4. 构建面向 LLM Agent 的可观测体系,包括执行链路追踪、Token 消耗分析、失败重试策略、性能瓶颈诊断等,提升平台可运维性; 5. 深度参与 AgentRun 与通义大模型、阿里云 Serverless、函数计算(FC)、SLS 等基础设施的集成,打造端到端的智能体 PaaS 能力; 6. 探索前沿 Agent 技术(如反思机制、多智能体协作、长期记忆等)在生产环境中的工程化落地路径。