logo of liauto

理想汽车【企业智能】SRE工程师

校招全职算法与软件地点:北京状态:招聘

任职要求


1. 计算机科学、软件工程、人工智能等相关专业本科及以上学历;
2. 云原生与平台工程相关技术栈,理解云原生理念:容器与调度、微服务服务治理DevOps工具链等;
3. 工程开发与系统设计能力,熟悉微服务架构设计、分布式系统设计原则;
4. 机器学习与深度学习框架,熟悉常用的机器学习与深度学习框架,了解模型训练、评估、微调、部…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责系统可靠性工具和平台建设;
2. 负责系统可靠性平台的Agent设计、开发和优化
3. 负责智能基建核心基础平台的可靠性建设和运维。
包括英文材料
学历+
微服务+
服务治理+
DevOps+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-10-14杭州
logo of thead
社招5年以上技术-芯片

我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。

更新于 2025-12-31上海
logo of jd
社招软件开发岗

京东科技作为京东集团旗下专注于以技术为产业服务的业务子集团,秉承“以科技引领产业数智化升级,推动世界更加高效和美好”的使命,为企业和金融机构等客户提供全链条的技术产品与服务。我们目前已服务超95%的央企、超2500家大型企业、944家金融机构和超250万家中小微企业。在供应链金融领域,以数智供应链+供应链金融的“双链联动”模式,面向企业和金融机构输出供应链金融科技平台的技术及运营能力,助力产业链上的中小微企业高效便捷获得融资服务。在企业服务领域,基于全栈式云服务产品,帮助企业实现数智化升级。加入我们,一起用技术让生活更美好! 岗位职责: 1.负责部门内AI语音对话、智能体和具身智能系统的高可用性、可靠性和性能设计。开发和维护监控基础设施,及时发现并解决潜在问题,确保相关系统的正常运行; 2.开发和优化自动化工具,以提高系统的配置、部署和监控效率,支持AI语音和智能系统的快速迭代和性能优化; 3.快速响应生产环境中的故障,通过分析系统资源使用情况,进行容量规划和性能优化,以满足业务增长和智能应用需求; 4.与产研团队密切合作,共同推动技术创新和系统稳定性提升,支持AI解决方案的可扩展性和可靠性改进; 5.提升系统在故障情况下的恢复能力;制定和实施容灾方案,确保智能系统的稳健运行。

更新于 2026-01-29北京
logo of antgroup
社招3年以上技术类-开发

1. 面向业务构建连续性策略,为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标,构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力,协同&推动全局架构演进,进行前瞻性的设计与规划,为全集团业务持续稳定运行负责; 2. 面向全站基础架构,构建站点容灾、建站、弹性等全局技术架构,保障各站点稳定运行,提升业务可用率; 3. 识别业务发展过程中的效能&成本问题,结合AI与智能化技术,进行工程效率提升,降低流量成本与算力成本,改进工程交付效率与质量; 4. 围绕各业务大促活动,提供高性能、高可用、资金安全的常态活动保障方案,构建灵活弹性的容量调度策略,为各头部电商平台提供峰值秒杀技术能力与容量服务;

更新于 2025-06-03上海|杭州