logo of liauto

理想汽车【企业智能】SRE工程师

校招全职算法与软件地点:北京状态:招聘

任职要求


1. 计算机科学、软件工程、人工智能等相关专业本科及以上学历;
2. 云原生与平台工程相关技术栈,理解云原生理念:容器与调度、微服务服务治理DevOps工具链等;
3. 工程开发与系统设计能力,熟悉微服务架构设计分布式系统设计原则;
4. 机器学习深度学习框架,熟悉常用的机器学习深度学习框架,了解模型训练、评估、微调、部署全流程,具备一定的调参与性能优化能力;熟悉时间序列预测、异常检测、Root Cause Analysis 等方向优先; 
5. 数据平台与处理工具,有大数据处理和数据平台开发经验者优先;
6. 智能Agent开发经验(加分项)熟悉或有以下框架使用经验者优先;
7. 具有一线互联网公司或者人工智能公司软件研发或者SRE实习经验优先。

工作职责


1. 负责系统可靠性工具和平台建设;
2. 负责系统可靠性平台的Agent设计、开发和优化
3. 负责智能基建核心基础平台的可靠性建设和运维。
包括英文材料
学历+
微服务+
服务治理+
DevOps+
系统设计+
分布式系统+
机器学习+
深度学习+
AI agent+
相关职位

logo of aliyun
社招3年以上云智能集团

部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。 云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。 云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于: 1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系 2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛 3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单 4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进 5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障 岗位职责: 1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。 2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。 3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。 4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。 5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验

更新于 2025-10-14
logo of thead
社招5年以上技术-芯片

我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。

更新于 2025-10-09
logo of antgroup
社招3年以上技术类-开发

1. 面向业务构建连续性策略,为集团内部及外部客户提供行业绝对领先的可靠性技术服务。围绕业务持续安全、可用目标,构建多端智能预警、根因定位、动线分析、资金安全保障、自愈、降级、限流、智能运维能力,协同&推动全局架构演进,进行前瞻性的设计与规划,为全集团业务持续稳定运行负责; 2. 面向全站基础架构,构建站点容灾、建站、弹性等全局技术架构,保障各站点稳定运行,提升业务可用率; 3. 识别业务发展过程中的效能&成本问题,结合AI与智能化技术,进行工程效率提升,降低流量成本与算力成本,改进工程交付效率与质量; 4. 围绕各业务大促活动,提供高性能、高可用、资金安全的常态活动保障方案,构建灵活弹性的容量调度策略,为各头部电商平台提供峰值秒杀技术能力与容量服务;

更新于 2025-06-03
logo of antgroup
社招3年以上技术类-开发

1、制定所负责业务的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括内部各子域的业务架构、数据架构、信息架构、技术架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率; 2、识别负责业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果; 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量; 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划。

更新于 2025-06-16