
平安科技资深IaaS研发工程师
任职要求
1、熟悉K8S生态,有5年以上容器相关开发经验; 2、熟练掌握Go语言,有实际的项目开发经验; 3、掌握K8S编排服务框架以及能对它们进行二次开发; 4、熟悉Linux操作系统,容器网络、存储等相关知识和原理; 5、熟悉容器云厂商的产品和技术方案,有大规模容器集群架构设计、性能优化经验优先; 6、有优秀的沟通协作能力、分析解决问题能力和学习能力。 加分项: 0、有CKA/CKAD证书优先; 1、有kubernetes、docker、containerd、kata等相关项目经验; 2、有cni、csi等相关项目经验; 3、有 virtual kubelet等相关项目经验; 4、有开源社区贡献。
工作职责
1、负责容器云平台后端系统的架构设计、功能开发; 2、负责云原生产品及K8S周边生态技术架构演进,实现多集群管理、Serverless化、service mesh、container runtime等; 3、负责容器云平台的安全和稳定运营,关注安全风险、平台高可用、性能等非功能性需求。 4、负责解决容器云平台线上问题。
1、打造业界领先的业务存储研发解决方案,管理和存储集团信息在线业务元数据; 2、负责集团信息数据服务、元数据研发工作和架构演进,包括架构设计、功能研发、技术难题攻关等; 3、围绕业务场景,分析并解决业务数据存储共性需求和痛点问题,应对架构迭代和数据合规挑战; 4、结合业界发展趋势、AI及安全合规要求,探索AI Native下的存储层理想架构。
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
1、负责阿里云AI人工智能平台(PAI)运维工作,建设超大规模GPU集群稳定性体系,包括可观测性链路、监控报警,故障应急及处置、SLA可用率度量提升等 2、研发AI运维管控平台,通过自动化提升运维效率,包括交付&变更CICD、GPU节点交付&自愈、智能诊断定界等 3、落地AIOps智能运维,通过AI算法提升稳定性,包括异常检测、根因定位及基于大模型&智能体Agent运维落地等 4、负责稳定性架构设计及项目组织推动落地,包括基础架构云原生化、跨AZ高可用架构、产品可运维性架构演进等
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计并构建高可用、智能化的CI/CD平台 主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。 2. 打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 3. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 4. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。