美团容器调度引擎研发
任职要求
1.扎实的计算机专业基本功,3年以上工作经验。 2.熟练掌握Go/Java语言,具备良好的编码习惯,注重工程质量。 3.对Kubernetes生态的开源组件原理有深入了解 。 4.对分布式架构组件有…
工作职责
负责美团容器平台调度、编排等核心系统的设计、开发工作,具体包括: 1.设计和实现大规模、高效、智能的基于Kubernetes的调度引擎。 2.维护美团海量kubernetes集群,完善可观测体系,保障稳定性。 3.参与调度方向及细分领域的研发,提升资源使用率,为公司降低成本。
1、负责快手容器云超大规模算力平台的架构设计与开发工作,包括但不限于资源调度、服务编排及容器引擎等多领域场景; 2、基于云原生技术完善海量异构资源的多集群联邦和统一调度能力,构建低成本、高弹性的计算、存储、网络算力基座,致力于持续提升资源效率; 3、参与完善服务微架构及性能瓶颈分析观测体系,深入支撑容器平台及快手各类业务的全链路稳定性问题,持续提升业务运行质量; 4、云原生及大模型推理场景AI-Infra领域前沿技术,提升大规模的推理场景GPU利用效率。
MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。 随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。 工作职责 1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。 2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。 3. 参与大规模 RL 训练 infra 的 scaling,包括任务分发、资源调度、环境复用、状态隔离、失败恢复、日志采集和性能优化。 4. 建设安全隔离机制,降低模型生成代码、Agent 工具调用和自动化执行带来的安全风险,包括权限控制、系统调用限制、网络隔离、资源限额等。 5. 与模型训练、Agent 框架、数据和评测团队合作,将训练任务需求转化为稳定可用的执行环境和平台能力。 6. 分析大规模训练过程中的系统瓶颈和故障问题,持续优化调度效率、资源利用率、任务吞吐和环境稳定性。 7. 参与内部平台工具建设,包括任务管理、运行监控、日志查询、环境调试、指标看板和自动化运维能力。

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##

## 职位描述 负责 AI 算法服务工程化与技术外采中台建设,打造统一的模型接入、调度与治理平台,支撑多算法、多厂商能力的标准化接入与高性能、高可用运行,构建面向 AI 时代的算法服务基础设施。 ## 岗位职责 1. 负责 AI 算法服务的工程化封装与容器化改造,设计统一的服务接入规范、部署标准与运行时治理体系 2. 参与构建多模型接入与调度平台,实现模型路由、并发控制、限流熔断、优先级调度与成本优化策略 3. 设计并优化高并发场景下的服务架构,保障系统在高 QPS、复杂依赖情况下的稳定性与可扩展性 4. 构建完善的可观测体系(日志、指标、Tracing),持续优化系统性能与故障恢复能力 5. 与算法、产品及业务团队协作,推动 AI 能力高效落地并形成可复用的工程化能力 ##