
得物【稳定生产】监控平台研发专家
任职要求
1.计算机或应用数学相关专业优先,10以上研发经验; 2.精通Go/Java/Python/C++等相关语言(任何一种); 3.熟悉Flink/Hadoop/Spark等在离线技术(任何一种); 4.熟悉监控领域专业技术(如Prometheus\VictoriaMetrics\VMAgent\Opentelemetry\Clickhouse); 5.熟悉容器和云原生技术,如Docker、K8S、CNCF项目等,有实操者优先; 6.积极乐观,责任心强,工作认真细致…
工作职责
1.主导得物全栈监控平台产品和技术架构设计与落地; 2.参与得物全栈监控平台团队管理和项目管理。
1、负责异构计算集群的架构设计与研发,优化算力资源调度,提升效率与稳定性,为亿万用户提供普惠算力服务; 2、攻克主流AI应用在异构计算集群部署中的技术瓶颈,设计并开发高性能、高可用的异构计算解决方案; 3、主导Serverless化异构计算平台的建设,推动云原生架构在异构计算领域的创新应用与迭代升级; 4、跟踪AI领域的前沿技术动态,参与构建面向下一代AI训练与推理场景的智能算力平台架构。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。