字节跳动资深SRE工程师(组件平台方向)-国际电商
任职要求
1、计算机或相关技术学科本科及以上学历,具备良好的英语沟通能力; 2、熟悉组件运维相关流程,了解基础组件行业发展趋势,3年及以上组件运维经验或组件平台开发经验,电商经验优先、熟悉云计算技术优先; 3、拥有一种或多种编程语言(例如Java、C++、Go)的经验,或Shell和Python的脚本编写…
工作职责
1、面向国际电商业务,基于跨团队/时区/地域的合作机制,提供符合实际业务场景的组件稳定性解决方案; 2、持续进行组件的元数据建设,可观测建设,完善多维度的可观测方案; 3、开发平台化、数据可视化和自动化监控流程,以促进国际电商平台组件运维提效的工作; 4、深入了解电商业务,进行组件的风险感知和治理; 5、持续跟进国际电商组件的管理和优化。
1、参与商家平台方向相关系统的开发与优化,包括商家入驻、商家工作台、商客服等子方向; 2、参与国际化电商商家基础模型的设计讨论,以及优化落地; 3、参与系统架构改进,对系统进行稳定性、高可用建设和运维。
字节跳动基础架构 SRE 团队负责支持公司各项业务的正常运转,包括处理紧急故障响应、保障业务连续性、产品可用性改进、性能&效率优化、变更管理、监控、容量规划、运维产品开发与管理等相关工作。SRE 前端团队与 SRE 业务团队密切配合,负责搭建基础架构SRE 统一的运维管理平台,以建设通用能力的方式支持各产品(技术组件)搭建理念一致、功能易用的运维分站,实现不同业务场景下的运维闭环。 1、参与应用开发管理、流程引擎、逻辑编排、UI 编排等方向的技术架构和研发; 2、负责搭建物料库、制定各类研发规范,构建统一、高效的前端研发流程; 3、参与公司运维工作的白屏化,自动化和智能化实践,为公司内部提供拥有极致体验的运维产品; 4、深度参与面向未来的下一代基础架构,构建云原生运维产品,为多种业务场景赋能。
泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。 1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地; 2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能; 3、不断研究大模型的新的前沿技术,攻克关键技术难题,促进安全AI技术发展; 4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。