logo of dewu

得物【稳定生产】监控平台研发专家

社招全职3年以上技术类地点:上海状态:招聘

任职要求


1.计算机或应用数学相关专业优先,10以上研发经验;
2.精通Go/Java/Python/C++等相关语言(任何一种);
3.熟悉Flink/Hadoop/Spark等在离线技术(任何一种);
4.熟悉监控领域专业技术(如Prometheus\VictoriaMetrics\VMAgent\Opentelemetry\Clickhouse);
5.熟悉容器和云原生技术,如DockerK8SCNCF项目等,有实操者优先;
6.积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力;
7.热爱编程,有较强的学习能力,有强烈的求知欲、好奇心和进取心 ,能及时关注和学习业界最新技术。

加分项:
1.参与主导全栈监控平台产品架构和技术架构落地;
2.参与或者Onwer开源项目研发,提交过PR;
3.图数据计算领域实践经验优先;
4.AIOps方面有探索和研究研究(时序预测和检测领域,熟悉Facebook kats或者darts等框架);
5.至少3年以上管理经验(带过20左右团队,特别是监控领域/基础架构领域)。

工作职责


1.主导得物全栈监控平台产品和技术架构设计与落地;
2.参与得物全栈监控平台团队管理和项目管理。
包括英文材料
Go+
Java+
Python+
C+++
Hadoop+
Spark+
Prometheus+
OpenTelemetry+
ClickHouse+
Docker+
Kubernetes+
CNCF+
系统设计+
相关职位

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14
logo of kuaishou
社招3年以上D6219

1、协同数据研发,负责A/B实验数据生产自动化,监控和保障,持续提升实验数据生产的时效性; 2、协同底层引擎,持续优化实验结果查询的时效性和稳定性; 3、协同产品团队,负责常用的实验分析能力的研发; 4、协同数据科学团队,负责常用的统计推断和因果推断能力的研发。

更新于 2024-10-30
logo of antgroup
社招3年以上技术类-开发

1. 负责企业混合云管理平台中计算管控相关功能的设计、开发和维护。 2. 面向超大规模云基础设施管理提供技术解决方案,建设容量与资源调度供应平台,优化成本控制;建设巡检与监控能力,保障全站系统运行稳定性。 3. 运用 OpenStack 或各大云厂商(阿里云、华为云、AWS、Azure、GCP等)的计算产品(如 ECS, IMS),进行模块开发和系统集成。 4. 参与公司整体云计算架构的规划、设计、技术预研和风险评估。 5. 与跨部门团队合作,提供技术支持和解决方案。 6. 监控系统运行状态,及时定位和解决平台问题,确保平台安全和流畅运转。 7. 编写相关的技术文档,包括设计文档、操作手册、维护手册等。

更新于 2025-08-05
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14