阿里云诚云科技-高级应用运维工程师-开源大数据平台
任职要求
1、有K8S/主流开源大数据大数据引擎(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)的运维经验,熟悉分布式系统原理及Linux原理 2、熟悉Golang/Python/Java至少一门编程语言,有运维平台开发建设经验,如有AIOps智能运维经验是加分项 3、要具备稳定性安全生产落地实战经验,包括高可用架构、可观测性&监控、异常处置、SLA&可用率、节点自愈等 4、有良好沟通及项目推动协作能力,做事严谨仔细、具备较好韧性
工作职责
1、负责阿里云开源大数据平台(Flink/EMR/Spark/StarRocks/ES/Hadoop/K8S)运维工作,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发大数据运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、主导(参与)规划和设计快手新一代 Data + AI 生产管治平台的后端技术体系以及软件架构,包括 离线/实时开发平台、数据安全、数据地图、大模型数据同步/任务调度等系统; 2、充分利用模型微调、提示词工程、RAG等大模型技术构建智能开发 / 运维 / 治理等生产智能化能力; 3、充分利用微服务、容器化等技术构建高可用、高扩展和低耦合高内聚的数据中台服务; 4、了解业界相关技术体系,为快手数据产品研发引入创造性的技术方案,解决面临的各种复杂问题和挑战。
1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验; 2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA; 3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等; 4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。
1. 作为阿里云智能在客户侧的服务界面,全流程深入了解大型企业业务场景,与企业的 IT、应用架 构、人员合作,针对客户现有 IT 架构进行梳理与分析,协助并提供 IT 整体架构战略规划的咨询,协同 售前架构师所提供的设计方案的落地、实施和交付工作。 2. 基于阿里云的产品线、技术体系,帮助企业级客户制定 IT 架构和业务流程,包括定制的最佳实践、 异常处理机制和问题应急预案等。帮助客户深度理解云服务,并持续帮助客户提升技术能力。 3. 推动阿里云智能产品不断优化,解决客户使用云计算服务和解决方案过程中的技术问题,不断完善 问题处理机制和流程,与阿里云服务专家、产品专家直接合作,确保企业技术问题高效地解决。