logo of momenta

Momenta资深云原生基础架构工程师/专家

社招全职地点:北京 | 苏州状态:招聘

任职要求


职责描述
1、负责支持全公司Kubernetes多集群管理与GPU资源调度,优化云计算资源利用率,确保基础设施高效运行,满足大规模数据任务和GPU密集型场景需求;
2、负责Kubernetes多集群的部署、扩展及优化,确保资源高效分配;
3、构建跨集群的统一调度机制,提升集群资源利用率;
4、维护GPU节点池,监控GPU使用情况,并优化调度策略;
5、云计算资源管理与优化
  5.1 设计和维护云服务的使用策略,降低云成本,提高资源利用率;
  5.2 推动Spot实例、混合云策略的应用,提升系统性价比;
6、云原生技术探索
  6.1 负责研究和引入新兴云原生技术(如 KubeVirt、IstioCilium 等),并推动在生产环境中的落地;
  6.2 提供技术支持,保障基础设施与量产交付项目需求匹配
7、平台可靠性保障
  7.1 与开发和业务团队协作,优化服务部署及故障排查;
  7.2 提升基础设施的可靠性和稳定性,推动 SLO、SLA 的落地实施

工作职责


包括英文材料
Kubernetes+
Istio+
Cilium+
相关职位

logo of thead
社招5年以上技术-芯片

我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。

更新于 2025-10-09
logo of bytedance
社招3年以上A236297

1、负责云原生容器平台中云原生网关的架构设计演进以及商业化产品开发; 2、负责优化大规模容器云平台下云原生网关的性能、高可用性等问题; 3、负责大规模容器云平台下云原生网关的稳定性建设工作,保障云原生网关在大规模及突发流量场景下的稳定运行; 4、理解客户的需求和背后的商业价值,调研国内外产品,让产品和技术具备业界领先的差异化竞争力; 5、关注业界云原生网关、微服务治理方向发展,参与开源社区生态建设; 6、关注云原生网关在AI方向的发展,构建AI云原生网关产品化能力。

更新于 2024-10-22
logo of bytedance
社招3年以上A100445

1、负责云原生容器平台中云原生网关的架构设计演进以及商业化产品开发; 2、负责优化大规模容器云平台下云原生网关的性能、高可用性等问题; 3、负责大规模容器云平台下云原生网关的稳定性建设工作,保障云原生网关在大规模及突发流量场景下的稳定运行; 4、理解客户的需求和背后的商业价值,调研国内外产品,让产品和技术具备业界领先的差异化竞争力; 5、关注业界云原生网关、微服务治理方向发展,参与开源社区生态建设; 6、关注云原生网关在AI方向的发展,构建AI云原生网关产品化能力。

更新于 2024-10-22
logo of bytedance
社招5年以上A193461

1、负责火山引擎云原生应用平台中微服务体系的架构设计演进以及商业化产品开发; 2、负责优化大规模业务接入场景下微服务架构的性能、稳定性、高可用等问题; 3、理解客户的需求和背后的商业价值,调研国内外市场,让产品和技术具备业界竞争力; 4、参与字节跳动火山引擎微服务技术生态建设。

更新于 2024-10-12