希音K8S工程师(linux内核/资源编排)
任职要求
本科及以上学历,计算机相关专业,5年以上 Linux 系统相关开发或使用经验,至少 2 年 Kubernetes 平台相关经验。 熟悉 Linux 内核调度、网络、内存管理、磁盘 I/O 等子系统,能够定位并解决系统中的瓶颈。 熟悉 eBPF 技术,能够在生产环境中应用 eBPF 进行实时监控、性能分析和问题排查。 具有 Kubernetes 高可用架构和资源调度的经验,了解容器化的基础设施与云平台集成。 熟练掌握 C/C++、Go 等编程语言,能够开发、优化底层系统工具及内核模块。 熟悉容器技术(Docker、Kubernetes),并能够解决与容器化平台相关的性能问题。 有高并发、高负载环境下的故障排查经验,能够快速定位并解决系统级问题。 熟练使用性能分析工具(如 perf、strace、ftrace、gdb、sysdig 等)进行系统调试和性能调优。 良好的沟通能力和团队合作精神,能够与其他团队紧密合作,推动系统性能优化。 加分项: 深入了解 Kubernetes 内部原理,特别是调度器、网络插件、持久存储等模块。 有混合云或跨云平台的 Kubernetes 部署经验,能够在多种环境中优化集群性能。 熟悉云计算平台(如 AWS、Azure、GCP 等)及与 Kubernetes 的集成。 岗位2(资源编排方向) 我们正在寻找一位具有扎实K8S资源编排方向工程师,加入我们的K8S团队。您将参与K8S相关的调度、网络插件、存储插件、自动扩缩容等相关工作。我们在底层内核侧做了诸多优化改进,因此,需要您对Linux Kernel具备一定的熟悉,并对各家云厂商IaaS技术有一定的了解。 主要职责: 深入分析Kubernetes源代码,针对线上场景,定制部分功能,包含不限于调度插件、CSI、CNI等控制器的编写。 分析、定位并优化Kubernetes环境中的基础设施相关问题,提供高效、可行的解决方案。 参与跨部门协作,与系统团队写作,共同保障Kubernetes基础设施稳定性。 参与Kubernetes集群混合部署的设计与优化、调度器编写,充分利用底层IaaS能力,提升集群整体使用率与稳定性。 职位要求: 3年以上 Kubernetes 系统相关开发经验,5年以上基础设施方向开发经验 了解Linux内核调度、网络、内存管理、磁盘 I/O等子系统,能够定位并解决系统中的瓶颈。 熟悉Kubernetes高可用架构和资源调度相关技术,了解容器化的基础设施与云平台集成。熟练掌握 C/C++、Golang等编程语言。 熟练掌握Kubernetes Operator编写、CNI编写、CSI编写。能够对Kubernetes精细定制开发,有 Kubernetes 相关社区协作经验可作为加分项。 有高并发、高负载环境下的故障排查经验,能够快速定位并解决系统级问题。 熟悉性能分析工具(如perf、strace、 ftrace、gdb、sysdig等),能够基于分析工作进行系统问题的定位和调试。 良好的沟通能力和团队合作精神,能够与其他团队紧密合作,推动基础设施系统性能优化。 加分项: 熟悉底层容器技术相关实现,包括不限于Docker、Containerd、Runc。 有混合云或跨云平台的Kubernetes 部署经验,能够在多种环境中优化集群性能。 熟悉公有云(如AWS、Azure、GCP等)相关技术,对公有云相关概念、技术的具备深度了解,参与过公有云 Kubernetes 的集成。 参与Kubernetes 相关社区协作,提交相关代码。
工作职责
岗位一(linux内核方向) 我们正在寻找一位具有扎实 Linux 系统的高级系统工程师,加入我们的K8S团队。您将参与Linux 内核性能分析、系统级调优和故障排查,重点解决在线系统中的性能瓶颈问题。我们大规模的应用了 Kubernetes 混合部署,因此您需要具备一定的 Kubernetes 使用经验,能够在大规模集群环境中优化系统性能,确保系统的稳定性和高效运行。 作为一名高级系统工程师,您将有机会通过运用 eBPF 和其他技术手段来分析和调优系统,深入了解容器化环境及其与基础设施的集成。 深入分析Linux 系统内核(调度、网络、内存管理、磁盘 I/O 等),定位并解决线上系统中的性能瓶颈。 使用 eBPF 技术进行实时性能监控、故障排查,提升系统的可靠性和可扩展性。 分析并优化 Kubernetes 环境中的基础设施问题,特别是与容器网络、存储和调度相关的底层性能调优。 参与跨部门协作,帮助排查生产环境中的系统故障,提供高效、可行的解决方案。 参与 Kubernetes 集群混合部署的设计与优化,确保跨平台、多集群的稳定性和兼容性。 负责开发和定制 Kubernetes 生态相关的各类功能,如基于Cilium二次开发,开发各类Operater等。
-岗位核心目标:主导设计、构建并优化企业级私有化交付运维平台架构,实现资源统一纳管、自动化部署、可观测性及全生命周期管理,提升客户私有化交付效率与稳定性 -关键职责如下: - 架构设计与开发 -设计高可用、可扩展的私有化交付平台架构 -开发核心模块:资源编排引擎、自动化部署框架、自动化装机引擎 -构建多集群管理能力,实现跨地域私有化项目统一管控 -技术栈整合:整合IaC工具链、容器编排、工作流编排 -交付体验优化:开发可视化交付控制台,提供部署、变更、运维一体化操作界面 -实现交付流程可观测性:部署进度追踪、实时日志、资源拓扑自动生成 -工程效能提升: -建设 CI/CD流水线,支持平台自身的持续集成与灰度发布 -探索基于大模型的智能部署运维架构:自动化任务编排、根因分析、排错指引 -技术领导:主导技术选型及架构评审,制定开发规范
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
1、负责设计AI芯片仿真系统框架,在事务级和CA层级; 2、设计集群建模方案,考虑仿真集群的虚拟化,提供用户友好的部署接口; 3、深入优化仿真系统执行效率。