京东运维开发DevOps工程师
任职要求
1、2年以上的 Python 3.x 、Golang 实际开发经验;了解Django,Flask, FastApi,Gin ,微服务更好 2、有一定前端开发经验优先,对vue,react等主流前端框架有一定的理解,熟悉一种框架有不错的经验和理解能力, 3、拥有具备规模的运维自动化平台、监控平台开发或管理后台类系统经验; 4、了解常用中间件:数据库、消息队列、服务发现等。有一定开发运维脚本或工具,来提高运维部署的效率。熟练掌握Python,shell编程 5、了解一些自动化工具 例如:saltstack,ansible,Norn…
工作职责
1、负责开发IT统一运维平台、监控报警体系和Devops自动化平台的构建、设计、开发、部署、升级与维护,包括不限于监控告警系统、日志系统、容量管理、CMDB资源管理、配置中心、调度系统、流程系统、IM服务平台等系统开发 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 4、负责IT成本管理,稳定性建设,日志分析、挖掘问题隐患、配合制作相关预案,项目跟进 5、负责日常应用运维oncall,SRE,包括配置、优化、备份、故障处理等工作 6、关注行业趋势变化和竞品动态,持续完善产品功能; 7、撰写详细的产品需求文档(PRD)、原型设计(Wireframe/Mockup),清晰地向团队梳理需求,推进落地。
我们正在寻找充满激情、具备技术前瞻性的应届毕业生,加入我们致力于构建智能化研发基础设施的团队。作为AI赋能的DevOps开发工程师,你将参与下一代智能化CI/CD平台与自动化运维系统的开发与优化,融合人工智能技术,推动软件研发流程的自动化、可观测性与自愈能力全面提升。 你将参与: 1. 构建智能CI/CD流水线:与研发团队紧密协作,设计并开发高可用、可扩展的持续集成与持续交付平台;探索将机器学习应用于构建失败预测、测试用例智能推荐、资源调度优化等场景,提升研发效率与交付质量。 2. 开发智能化自动化运维工具:使用Python、Go等语言开发自动化脚本与工具,实现基础设施即代码(IaC);结合AI技术,探索日志异常检测、自动化根因分析等AIOps能力,实现系统运维的智能决策与响应。 3. 打造智能监控与自愈系统:参与构建覆盖全链路的监控体系,集成Prometheus、Grafana、ELK等技术栈;引入时序预测模型与异常检测算法(如LSTM、Isolation Forest等),实现性能瓶颈预警、故障自动诊断与部分场景的自愈响应。 4. 推动DevOps与MLOps融合实践:参与机器学习模型的训练流水线(ML Pipeline)与模型部署(Model Serving)基础设施建设,探索模型版本管理、A/B测试、监控与回滚机制,助力AI能力高效落地。
1.开发并持续迭代腾讯云数据库统一运维平台与自动化工具链,覆盖部署、监控、容灾、变更、告警管理等全生命周期; 2.深入业务运维场景,通过自动化、智能化解决方案,显著降低人工干预成本,提升故障应急效率与系统可用性; 3.参与建设高可用的监控体系、智能诊断平台及运维数据门户,推动运维数据化与决策智能化; 4.与架构师、研发及运维团队紧密协作,将运维需求转化为高效、可靠的平台能力,并对系统稳定性和用户体验负责。
