
得物【稳定生产】监控平台研发专家
任职要求
1.计算机或应用数学相关专业优先,10以上研发经验; 2.精通Go/Java/Python/C++等相关语言(任何一种); 3.熟悉Flink/Hadoop/Spark等在离线技术(任何一种); 4.熟悉监控领域专业技术(如Prometheus\VictoriaMetrics\VMAgent\Opentelemetry\Clickhouse); 5.熟悉容器和云原生技术,如Docker、K8S、CNCF项目等,有实操者优先; 6.积极乐观,责任心强,工作认真细致,具有良好的团队沟通与协作能力; 7.热爱编程,有较强的学习能力,有强烈的求知欲、好奇心和进取心 ,能及时关注和学习业界最新技术。 加分项: 1.参与主导全栈监控平台产品架构和技术架构落地; 2.参与或者Onwer开源项目研发,提交过PR; 3.图数据计算领域实践经验优先; 4.AIOps方面有探索和研究研究(时序预测和检测领域,熟悉Facebook kats或者darts等框架); 5.至少3年以上管理经验(带过20左右团队,特别是监控领域/基础架构领域)。
工作职责
1.主导得物全栈监控平台产品和技术架构设计与落地; 2.参与得物全栈监控平台团队管理和项目管理。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
1、协同数据研发,负责A/B实验数据生产自动化,监控和保障,持续提升实验数据生产的时效性; 2、协同底层引擎,持续优化实验结果查询的时效性和稳定性; 3、协同产品团队,负责常用的实验分析能力的研发; 4、协同数据科学团队,负责常用的统计推断和因果推断能力的研发。
1. 负责企业混合云管理平台中计算管控相关功能的设计、开发和维护。 2. 面向超大规模云基础设施管理提供技术解决方案,建设容量与资源调度供应平台,优化成本控制;建设巡检与监控能力,保障全站系统运行稳定性。 3. 运用 OpenStack 或各大云厂商(阿里云、华为云、AWS、Azure、GCP等)的计算产品(如 ECS, IMS),进行模块开发和系统集成。 4. 参与公司整体云计算架构的规划、设计、技术预研和风险评估。 5. 与跨部门团队合作,提供技术支持和解决方案。 6. 监控系统运行状态,及时定位和解决平台问题,确保平台安全和流畅运转。 7. 编写相关的技术文档,包括设计文档、操作手册、维护手册等。