
得物【稳定生产】监控平台研发专家
任职要求
1.计算机或应用数学相关专业优先,10以上研发经验; 2.精通Go/Java/Python/C++等相关语言(任何一种); 3.熟悉Flink/Hadoop/Spark等在离线技术(任何一种); 4.熟悉监控领域专业技术(如Prometheus\VictoriaMetrics\VMAgent\Opentelemetry\Clickhouse); 5.熟悉容器和云原生技术,如Docker、K8S、CNCF项目等,有实操者优先; 6.积极乐观,责任心强,工作认真细致…
工作职责
1.主导得物全栈监控平台产品和技术架构设计与落地; 2.参与得物全栈监控平台团队管理和项目管理。
随着通用人工智能技术的快速发展,算力的需求也越来越大,作为阿里云人工智能平台的核心研发力量,您将负责构建支撑智算中心的自动化交付与运维底座。您的工作直接决定平台的部署效率、稳定性和扩展能力: 1、设计并实现平台的自动化部署系统,支持多地域、多可用区、多租户场景下的高效、高质量交付; 2、主导 GitOps 工作流在团队内的工程化落地,开发和维护基于ArgoCD/Flux等工具的发布控制系统,实现配置即代码、变更可追溯、发布可回滚; 3、参与多种云环境下部署架构的工程实现,解决跨云环境下的配置同步、资源编排与一致性保障问题; 4、与平台产品、算法工程团队紧密协作,将运维能力产品化,提升用户自助部署与管理体验。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
1. 参与运维可观测链路建设: 1.1 建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; 1.2 建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; 1.3 建立快速分析、诊断、定位问题能力,并能够协同开发人员分析解决问题。 2. 参与运维可自愈链路建设: 2.1 建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行; 2.2 建立故障注入机制,模拟生产故障场景,验证产品稳定性水位,提前发现系统能力短板。 3. 运维自动化体系建设: 3.1 建设本领域相关的运维体系,如变更标准、重保体系、客情预警等,确保本领域产品运维&稳定性能力提升; 3.2 建设稳定性能力的数据化体系,通过数据驱动方式持续治理稳定性风险; 3.3 建设网络质量自动化探测评估体系,并结合观测链路和自愈链路,自动化隔离网络抖动带来的服务影响。
1. 参与运维可观测链路建设: 1.1 建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; 1.2 建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; 1.3 建立快速分析、诊断、定位问题能力,并能够协同开发人员分析解决问题。 2. 参与运维可自愈链路建设: 2.1 建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行; 2.2 建立故障注入机制,模拟生产故障场景,验证产品稳定性水位,提前发现系统能力短板。 3. 运维自动化体系建设: 3.1 建设本领域相关的运维体系,如变更标准、重保体系、客情预警等,确保本领域产品运维&稳定性能力提升; 3.2 建设稳定性能力的数据化体系,通过数据驱动方式持续治理稳定性风险; 3.3 建设网络质量自动化探测评估体系,并结合观测链路和自愈链路,自动化隔离网络抖动带来的服务影响。