logo of dewu

得物【技术保障】大数据SRE工程师

社招全职技术类地点:上海 | 杭州状态:招聘

任职要求


1.对技术有追求,能够刨根问底的搞定技术问题;
2.熟悉hdfs/yarn/hbase大数据系统原理及部分组件源码;
3.熟悉K8S相关运维;
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责大数据平台、算法平台相关业务链路运维工作;
2.负责处理大数据生态稳定性等问题,保障集群高效、稳定、经济运行;
3.与开源社区保持交流,发现对业务场景有帮助的特性并引入生产环境,或将经内部验证的特性贡献到社区。
包括英文材料
HDFS+
Yarn+
还有更多 •••
相关职位

logo of tencent
社招5年以上腾讯云技术

1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验; 2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA; 3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等; 4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。

更新于 2025-08-05上海
logo of futu
社招2年以上技术类

【职位诱惑】- 腾讯系团队,扁平管理,六险一金 - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设 - 能学习到许多金融、证券行业知识。1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率 2.参与建设运维工具和平台, 推进运维自动化 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化 4.处理告警,使告警得到良好处置 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移 6.指导研发更好的使用平台工具。

更新于 2025-06-05深圳
logo of cainiao
社招3年以上技术类-开发

1、负责菜鸟SRE平台的核心模块设计、开发与迭代,重点包括但不限于: - 实时核对监控系统: 构建低延迟、高可用的海量实时数据核对与监控系统,实现物流全链路的秒级故障发现与自愈。 - DevOps平台: 开发下一代CI/CD流水线、环境管理、自动化运维等产品功能,提升全球研发团队的交付效率与质量。 - FinOps平台: 参与建设集团级的成本可视化与优化平台,通过资源分析、成本分摊、优化建议等产品化手段,驱动技术降本。 2、产品化与赋能: 深入理解内部用户(SRE、开发、运维)的痛点,将复杂的基础架构能力(如稳定性保障、成本优化、效率提升)抽象、封装成标准、易用的产品和服务,实现对全公司的技术赋能。 3、技术挑战攻坚: 解决在超大规模分布式系统、高并发实时数据处理、复杂业务场景下带来的技术难题,保障平台自身的稳定性、性能和可扩展性。 4、前瞻性与协作: 跟踪业界前沿技术(如eBPF、AIOps、Serverless等),与基础设施其他团队(如网络、存储、计算)紧密合作,共同规划和完善菜鸟的基础技术体系。

更新于 2025-09-08杭州
logo of aliyun
社招5年以上云智能集团

1. 负责AI交易平台业务的云原生基础设施建设与运维,保障Kubernetes(K8s)平台及容器化应用的高可用、高性能; 2. 负责基础设施全生命周期管理,包括但不限于阿里云资源、Flink实时计算集群,以及AI应用所需的MCP服务、Runtime调度、模型服务等组件的部署、监控、优化与故障排查; 3. 参与SRE体系的架构设计与技术演进,通过IaC(基础设施即代码)、CI/CD等理念,主导或参与自动化运维平台/工具的开发,提升研发与交付效率; 4. 关注云原生及AI基础设施领域的技术发展趋势,并将其应用于稳定性保障、成本优化和效率提升的实践中。

更新于 2025-11-05上海