携程资深运维开发工程师(混沌工程与SRE方向)/专家(MJ026962)
任职要求
1、计算机科学或相关专业本科及以上学历。 2、有 5 年以上 Java 开发经验,熟悉Spring Boot、Spring Cloud等主流Java框架,具有完整的项目开发经验,能够独立承担项目模块的设计和开发任务。 3、具有混沌工程的基础知识或实践经验,了解ChaosBlade、ChaosMesh等工具者…
工作职责
负责设计和实现混沌工程软件后端服务,需具备混沌工程的基础知识或实践经验,以及一定的运维知识,特别是SRE相关的工作经验。 1、负责设计和开发混沌工程Java后端服务(基于Java Spring框架),确保系统的高可用性及稳定性。 2、参与系统的需求收集分析、技术调研、迭代开发、方案落地,需与前端开发及团队其他人员紧密合作,确保开发工作顺利进行。 3、能编写高质量的代码,遵循团队的代码规范和开发流程,确保代码扩展性和可维护性,需具备架构优化、性能调优等能力。
1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。
泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。 1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地; 2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能; 3、不断研究大模型的新的前沿技术,攻克关键技术难题,促进安全AI技术发展; 4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。
1、负责AI技术深度应用软件测试或者系统稳定性测试,包括性能测试、压力测试、容灾演练等; 2、AI驱动的测试全流程优化,运用AI技术重构测试需求分析、用例设计、自动化、执行监控、缺陷预测及结果分析等环节,开发基于AI的自动化测试框架与工具,实现测试脚本智能生成、测试用例自适应推荐、异常场景自动挖掘等能力,探索大语言模型(LLM)在测试领域的应用,例如需求解析、测试数据生成、日志分析等场景; 3、自动化测试体系构建,设计并落地高可用、可扩展的自动化测试框架,整合AI能力提升测试覆盖率和执行效率,主导复杂系统的自动化测试策略,解决稳定性、数据构造等难点问题; 4、稳定性保障,负责系统稳定性测试,包括性能测试、压力测试、容灾演练等,确保系统在高并发、异常场景下的稳定性,设计并实施稳定性测试方案,识别系统瓶颈和潜在风险,推动研发团队优化系统架构,监控生产环境稳定性,分析故障根因,制定并落地改进措施; 5、技术探索与创新,跟踪AI测试领域前沿技术(如AI模糊测试、智能监控、自动化修复),推动技术预研与落地,通过数据建模与分析,构建测试质量评估体系,量化AI提效成果并持续优化; 6、团队赋能与协作,与研发、运维、产品等团队紧密合作,推动质量保障工作的落地和优化,沉淀AI测试方法论,通过技术分享、工具推广提升团队整体技术水平。