logo of dewu

得物【稳定生产】监控平台研发专家

社招全职3年以上技术类地点:上海状态:招聘

任职要求


1.计算机或应用数学相关专业优先,10以上研发经验;
2.精通Go/Java/Python/C++等相关语言(任何一种);
3.熟悉Flink/Hadoop/Spark等在离线技术(任何一种);
4.熟悉监控领域专业技术(如Prometheus\VictoriaMetrics\VMAgent\Opentelemetry\Clickhouse);
5.熟悉容器和云原生技术,如Docker、K8S、CNCF项目等,有实操者优先;
6.积极乐观,责任心强,工作认真细致…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.主导得物全栈监控平台产品和技术架构设计与落地;
2.参与得物全栈监控平台团队管理和项目管理。
包括英文材料
Go+
Java+
Python+
C+++
Hadoop+
Spark+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、负责异构计算集群的架构设计与研发,优化算力资源调度,提升效率与稳定性,为亿万用户提供普惠算力服务; 2、攻克主流AI应用在异构计算集群部署中的技术瓶颈,设计并开发高性能、高可用的异构计算解决方案; 3、主导Serverless化异构计算平台的建设,推动云原生架构在异构计算领域的创新应用与迭代升级; 4、跟踪AI领域的前沿技术动态,参与构建面向下一代AI训练与推理场景的智能算力平台架构。

更新于 2025-09-10杭州
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14北京|上海|杭州
logo of kuaishou
社招3年以上D6219

1、协同数据研发,负责A/B实验数据生产自动化,监控和保障,持续提升实验数据生产的时效性; 2、协同底层引擎,持续优化实验结果查询的时效性和稳定性; 3、协同产品团队,负责常用的实验分析能力的研发; 4、协同数据科学团队,负责常用的统计推断和因果推断能力的研发。

更新于 2024-10-30北京