得物【稳定生产】监控平台研发专家

社招全职3年以上技术类2023-12-26地点：上海状态：招聘

扫码手机上打开

任职要求

1.计算机或应用数学相关专业优先，10以上研发经验；
2.精通Go/Java/Python/C++等相关语言(任何一种)；
3.熟悉Flink/Hadoop/Spark等在离线技术(任何一种)；
4.熟悉监控领域专业技术(如Prometheus\VictoriaMetrics\VMAgent\Opentelemetry\Clickhouse)；
5.熟悉容器和云原生技术，如Docker、K8S、CNCF项目等，有实操者优先；
6.积极乐观，责任心强，工作认真细致…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.主导得物全栈监控平台产品和技术架构设计与落地；
2.参与得物全栈监控平台团队管理和项目管理。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

Java+

Python+

C+++

Flink+

Hadoop+

Spark+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-平台研发专家-GitOps及自动化方向-AI领域

社招5年以上云智能集团

随着通用人工智能技术的快速发展，算力的需求也越来越大，作为阿里云人工智能平台的核心研发力量，您将负责构建支撑智算中心的自动化交付与运维底座。您的工作直接决定平台的部署效率、稳定性和扩展能力： 1、设计并实现平台的自动化部署系统，支持多地域、多可用区、多租户场景下的高效、高质量交付； 2、主导 GitOps 工作流在团队内的工程化落地，开发和维护基于ArgoCD/Flux等工具的发布控制系统，实现配置即代码、变更可追溯、发布可回滚； 3、参与多种云环境下部署架构的工程实现，解决跨云环境下的配置同步、资源编排与一致性保障问题； 4、与平台产品、算法工程团队紧密协作，将运维能力产品化，提升用户自助部署与管理体验。

更新于 2025-11-24杭州

阿里云智能-大模型训推加速平台研发专家/高级专家-北京/杭州

社招3年以上云智能集团

● 设计和实现高效的训练推理框架，提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础，熟悉底层的硬件编程和常见GPU的算子库开发，能对算法的运行效率如速度、显存占用等进行优化，推动算法稳定、高效的运行。 ● 完善优化训练推理框架，针对市面上的国产信创卡能提出统一的优化方案，并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构，确保极端负载下的稳定性和性能。完善错误自愈机制，提升平台训练的MFU，打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计：主导核心模块技术方案设计与评审，结合业务需求与系统现状，制定可落地的架构规划。 ● 基础服务开发：构建高可用、可扩展的基础服务组件，支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理：主导跨团队协作项目的全生命周期管理，包括需求拆解、排期规划、进度跟踪与风险控制，确保项目高效交付。 ● 持续关注并跟进业界技术发展，比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州

阿里云智能-云网络智能运维研发专家-AI领域-杭州

社招5年以上云智能集团

1. 参与运维可观测链路建设： 1.1 建立并持续优化产品运维的监控机制，研发并维护相应的运维监控平台/工具； 1.2 建立并持续优化产品运维的预警机制，确保故障能够被快速发现、通报、定位及处理； 1.3 建立快速分析、诊断、定位问题能力，并能够协同开发人员分析解决问题。 2. 参与运维可自愈链路建设： 2.1 建立健全快速恢复服务机制，降低业务受损程度，确保产品、业务稳定运行； 2.2 建立故障注入机制，模拟生产故障场景，验证产品稳定性水位，提前发现系统能力短板。 3. 运维自动化体系建设： 3.1 建设本领域相关的运维体系，如变更标准、重保体系、客情预警等，确保本领域产品运维&稳定性能力提升； 3.2 建设稳定性能力的数据化体系，通过数据驱动方式持续治理稳定性风险； 3.3 建设网络质量自动化探测评估体系，并结合观测链路和自愈链路，自动化隔离网络抖动带来的服务影响。

更新于 2025-12-29杭州

阿里云智能-云网络智能运维研发专家-杭州

社招3年以上云智能集团

更新于 2025-12-29杭州