logo of tencent

腾讯腾讯云大数据-高级大数据技术服务工程师-内核专家/平台开发

社招全职5年以上腾讯云技术地点:上海状态:招聘

任职要求


1.熟悉HDFSYarnFlinkSparkImpalaKuduHiveHbaseElasticsearch、Clickhouse等大数据组件,熟悉组件的应用场景和问题解决方案,其中2项以上有源码级研究;
2.熟练掌握一门以上编程语言(java/golang/python/shell等);
3.精通linux或unix操作系统,及系统性能调优、故障处理;
4.熟悉业内常用的监控解决方案,具备运维相关流程、工具、平…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验;
2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA;
3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等;
4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。
包括英文材料
HDFS+
Yarn+
Spark+
Impala+
Kudu+
Hive+
HBase+
ElasticSearch+
还有更多 •••
相关职位

logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30深圳
logo of aliyun
社招3年以上云智能集团

客户贴身技术服务 • 技术问题处置:持续关注并分析客户用云技术问题,通过对客户业务的深入理解协助客户完成技术案例的快速高效处置。 • 需求追踪:在各行业结合客户业务场景和云产品使用情况,对客户使用情况和需求进行正确分析,挖掘真实产品需求并协助产品持续优化。 稳定性支持与保障 • 应急保障:重大故障问题的应急处置,协助业务快速恢复,故障逃逸等保障工作 • 风险巡检:针对客户使用云产品,进行使用负载,业务容量,风险事件,变更通知等巡检 • 主动服务:结合客户云上业务,制定关键架构监控和告警方案,实现智能监控和预警,提升客户的业务效率和用户体验。 • 全链路评估:对客户业务全链路调用评估,结合业务调用的云上/云下一体化风险评估,关键链路使用建议和风险提醒 • 高可用演练:围绕架构高可用方向,配合客户进行极端场景的高可用演练,模拟故障场景,演练业务逃逸实施并参与总结 • 活动护航:客户重大业务高峰活动护航,包括活动业务架构梳理,前置产品风险巡检,性能压测,故障演练,驻场保障等 云上业务治理与优化 • 用云优化:对客户新产品选型、产品使用方式、支撑行业最佳实践方案,规避通用行业客户使用误区,提炼围绕客户的最佳用云实践方案 • 云上资源管理:协助客户进行云上资源管理,业务资源使用率分析、容量管理和弹性伸缩方案保障 • 卓越架构支持:围绕卓越架构目标,对安全合规、稳定性、成本优化、高效性能方案等全方面优化工作支撑 服务保障 • 服务管理:为客户在云上使用过程中制定合理的服务及交流渠道,提供线上,现场,多项目多部门关键人员的服务交流方案支持,确保关键事件及重点项目的进展信息有效性,推进项目进展顺利落地。 • 项目支持:在客户使用云产品期间根据需求提供多样化的技术保障专项,并结合云产品特性和客户使用情况制定对应技术方案执行路线,保障技术专项的有效交付。 • 满意度保障:为企业客户满意度负责,从问题快速解决到项目平稳交付,并持续提供有效的云上使用建议和稳定性保障方案整体提升客户用云满意度。

更新于 2025-11-06上海
logo of bytedance
社招K4338

数据引擎-数据湖 团队,旨在打造业界领先的 EB 级超大规模数据湖,支持字节跳动众多核心业务线,如抖音、今日头条、电商。同时基于内部最佳实践,在火山引擎上打造一款云原生实时湖仓一体的 toB 产品——湖仓一体分析服务LAS(LakeHouse Analytics Service)。 1、打造业界领先的基于 HUDI的EB级数据湖,支撑字节跳动众多业务线(如抖音,今日头条,电商); 2、负责流批一体的实时数据湖存储系统的设计与研发,以及内核的极致优化; 3、与开源社区紧密合作,持续构建开源影响力,有机会成长为 HUDI Committer / PMC。

更新于 2022-08-17上海
logo of jd
社招3年以上软件开发岗

职位描述: 1. 负责设计与开发公司级高性能、高可用的实时计算平台,基于Apache Flink构建和优化核心实时数据管道,支撑关键业务场景。 2. 深入钻研Flink内核机制(如内存管理、任务调度、容错恢复),具备源码级调试、性能优化与定制开发能力,攻克生产环境中复杂技术挑战。 3. 主导实时任务的深度优化,包括但不限于反压调控、数据倾斜处理、状态管理及Checkpoint机制调优,保障实时服务的高吞吐、低延迟与稳定运行。 4. 结合业务需求,负责重大实时数据项目的技术方案选型、架构设计及评审,并输出清晰、规范的技术文档。 5. 跟踪流计算领域前沿技术(如Flink CDC、Apache Paimon、流批一体等),推动创新技术在公司落地,赋能团队成员,提升整体技术水平。

更新于 2025-10-20北京