TCL系统内核工程师(稳定性方向)
任职要求
1、大学本科及以上学历,计算机相关专业,3年以上相关工作经验; 2、精通C、java语言,了解C++、Kotlin,有扎实的编程功底;; 3、熟悉任意linux kernel核心模块、arm体系结构,熟悉Linux内核的核心模块(如进程调度、内存管理、文件系统、网络协议栈等)。 4、熟悉Linux内核调试工具(如GDB、Ftrace、Kdump等)。 5、能够分析和解决内核崩溃(Kernel Panic)、死锁、内存泄漏等问题。 6、对从事软件开发有浓厚的兴趣及技术钻研能力,良好团队合作意识、解决分析问题能力以及良好的沟通能力; 7、工作认真仔细、责任心强,能承受较大的工作压力。 具有以下经验者优先: 1、有linux系统稳定性、性能等优化经验者优先 2、有处理MTK平台KE NE等相关问题经验,有trace32分析经验者优先
工作职责
1、负责电视Android系统稳定性问题分析和解决 2、负责电视Android系统初期稳定性方案的移植和开发。 3、负责TV端需求的分析,方案设计和实现
-负责 BaiduCLoudOS操作系统 Kernel 相关模块的设计、开发、调试与维护,包括但不限于内存管理、进程调度、文件系统、驱动开发、网络协议栈、安全机制等方向 -负责BaiduCLoudOS 操作系统定制功能的开发和维护工作,包括OS系统构建、系统软件集成、版本发布等 -跟踪和分析 Linux 社区内核的发展趋势,参与内核补丁的评审、提交和维护工作 -根据产品需求,对内核自研特性开发与定制,提升系统性能和稳定性 -分析线上系统内核级别的 bug 和性能瓶颈,提供高效的解决方案 -与硬件、平台、应用团队紧密协作,推动内核相关问题的闭环解决 -撰写高质量的技术文档,支持内部知识共享与培训
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
1. 负责linux内核内存管理方向行业技术洞察; 2. 分析拆解中低端机型内存性能问题; 3. 基于问题设计相应的优化方案,并以专项的形式落地; 4. 设计、实现和优化 HyperOS系统内核调度器,完成系统调度器的开发优化工作。 【课题名称】 Linux内核调度/内存优化 【课题内容】 1、分析和优化HyperOS内核调度器的性能,提高系统的响应速度和吞吐量;优化任务调度延迟; 2、熟悉 ARM微架构,优化和设计内核调度,提高SOC系统能效; 3、跟踪和解决内核调度器相关的问题,包括死锁、优先级反转以及稳定性问题; 4、针对HyperOS内存管理器在中低端机型遇到的痛点问题,从软硬件融合、精细化内存管理等方向进行优化,提升用户体验。