logo of bytedance

字节跳动平台型高效SRE专家

社招全职3年以上A90366地点:北京状态:招聘

任职要求


1、计算机相关专业,本科及以上学历;
2、3年以上大数据领域SRE运维、ToB产品技术支持相关工作经验;
3、熟悉一个或多个开源组件,如Hadoop/Spark/Flink/Hive/Presto/Trino/Doris/Kafka/HBase/Hudi/ClickHouse等;熟悉一个或多个业内大数据平台产品,如Ambari、CDH、AWS…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责字节跳动数据平台开发套件DataLeap稳定性保障、从发现、止血与恢复链路运维体系建设,保障业务连续性;
2、负责字节跳动自研大数据产品以及开源产品的自动化运维,提升交付、运维与技术支持的效能;
3、负责沉淀大数据运维经验向文档化、工具化以及标准化推进,促进字节跳动大数据平台运维效能与安全生产。
包括英文材料
学历+
大数据+
Hadoop+
Spark+
Hive+
Presto+
Doris+
还有更多 •••
相关职位

logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。 6.负责技术运营(SRE)团队的日常管理,带领团队达成业务建设目标。

北京
logo of liauto
社招5年以上智能与信息技术

1.负责理想汽车软件、芯片研发基础设施的运营管理,保障核心应用的稳定可靠运行,结合业界技术演进迭代基础设施架构,通过规范化、标准化、自动化、智能化等手段不断提升运营效率和服务质量。 2.研发构建核心基础设施工具链,以及相应监控、配置、日志、智能化运营(AIOps)能力建设,制定业务相关的运维技术方案,确保业务高效稳定的运行。 3.负责服务的容量规划和预测,软件的性能分析以及系统调优,软硬件系统的采购与服务部署等。 4.负责高可用和可观测体系建设,制定如全链路监控、故障定位、自动恢复、异地容灾等方案并落地实施,保障业务持续可用。 5.和算法、工程团队协同完成研发基础设施的智能化改造,构建新一代 AI 友好型研发基础设施。

北京
logo of aliyun
社招8年以上云智能集团

负责小天基团队,团队定位:作为飞天云操作系统内核,提供可持续的接入,规划、交付、热升级以及「云平台,基础设施」的自动化运维能力。屏蔽基础设施和应用的差异性,提供资源池化能力,支撑飞天云多形态架构统一演进(公共云,主权云,专有云) 1、技术洞察和问题定义 •洞察领域发展方向,熟悉技术标准和前沿进展,跟踪关键竞对的技术和方法。 •结合产品现状提出待解决的问题,理解业务目标并分解到技术产品待解决问题中。1、市场洞察和需求分析 •通过调研和用户沟通,分析产品实际使用情况,洞察用户场景和需求,挖掘用户价值和痛点。 •通过市场和竞对分析,洞察市场和技术发展趋势,分析对比行业产品能力。 •全面分析产品需求,在多角色参与下提供全局方案,合理安排优先级。 2、产品及架构规划和设计 •对所在领域业务进行架构抽象,建立整体业务领域模型。 •制定系统整体架构规划和技术路线图,确定系统目标和方向,综合考虑应用架构、数据架构、关键技术选型、部署架构等多方面因素,确保系统整体质量。 •设计架构方案,包括系统组件、模块间的关系、接口、数据流和数据结构、基础设施等,保障系统的安全性、稳定性、易扩展、易维护和性能。 •把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。 •拆解工作,把复杂目标拆成一系列可以落到具体团队或个人的工作。 3、产品开发管理及架构落地 •做好产品开发的项目管理,把握关键点的选择,多端多场景的适配和支撑,通过高效获取与整合资源落地产品方案。 •协调研发团队完成产品的开发、测试、上线各环节,完成产品按期交付,达到预期效果。 •识别优先级、明确目标步骤和应急方案,保障架构实施落地和用户体验。 •梳理关键技术难点,指导开发团队进行突破和攻关,对开发过程进行监督和管理。 •负责部分核心代码编写,虚实结合,做好架构管理。 4、产品改进和风险管理 •关注用户对产品的使用,合理安排产品需求优先级,推动产品改进、新产品或功能孵化,提升产品易用性,优化产品稳定性、安全性、性能和成本。 •做好产品合规与风险防控,排查治理数据安全/合规/廉正/资损等各类隐患,保证日常运维与服务的高质量。 5、团队规划与管理 •具备团队管理经验,能有效激发成员潜力,推动梯队建设与人才成长。 •擅长跨团队协同,能在无直接汇报关系下推动技术、业务多方达成共识。 •具有优秀的目标管理与执行闭环能力,确保战略落地、结果可衡量。 •重视团队文化与氛围,能营造信任、开放、担当的组织环境。 6、架构治理和演进 •制定架构的原则、规范与治理机制,并且落实到具体的项目研发中。 •负责架构管控,参与领域的重大架构决策,管控架构变更。 •识别不合理业务和架构设计,定期评估架构成熟度。 •基于业务需求和技术演进目标,指导开发团队对系统进行优化和扩展、解决技术债务,推动架构持续演进。

更新于 2025-11-05杭州
logo of aliyun
社招5年以上云智能集团

1. 收集、识别、分析集团型客户用云需求或业务痛点,主导设计有竞争力的解决方案,并端到端拉通产研团队完成方案的落地与交付 2. 参与重要站点的建设及资源交付,包括但不限于通算、智算等新机型新规格的三新定义及交付,专属region或az的建设基线制定及交付等 3. 参与集团型客户用云日常及大促活动的稳定性保障,包括但不限于云底座高可用架构优化、云产品及基础设施可观测、业务容灾演练等 4. 面向集团型客户提供用云关键技术咨询或答疑,定期推介分享新技术云产品,帮助客户业务更好的上云和用云 5. 识别提炼客户共性需求,反哺产品设计,推动产品改进,或孵化新产品新功能,或沉淀场景化解决方案,提升云产品技术竞争力

更新于 2025-09-12杭州