拼多多机器学习平台工程师-推理方向(高级)
任职要求
1、 计算机或相关专业本科以上学历, 3年以上的机器学习平台相关经验; 2、熟悉常用机器学习框架的系统架构(tensorflow/caffe/pytorch/jax等); 3、具有大规模、高并发开发和优化能力,或者良好的架构设计能力; 4、熟悉常用的模型结构,对模型工程的关键问题有较为深刻的理解; 5、具有良好的沟通能力和团队合作能力,具有优秀的分析和解决问题的能力和态度; 6、熟悉c++/python任意一门语言; 加分项 1、熟悉CPU常用优化,如A…
工作职责
1、负责模型工程各个子系统的设计和迭代,包括模型在线推理、高性能KV平台等系统; 2、负责新技术调研和预研,紧跟模型工程的前沿技术; 3、负责重点项目的跟进,和业务团队密切合作,高效保质完成项目目标; 4、负责机器学习平台瓶颈的分析和优化,提升机器学习平台整体能力。
1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能
1.负责开发模型训练平台,支持超大规模稀疏模型的秒级实时训练与推理;负责开发模型推理平台,支撑数百个模型的复杂环境下的高并发、低延迟、低成本运行和海量资源的实时调度; 2.支撑视频号短视频推荐、直播推荐、红点推荐、图文推荐等大规模、复杂业务矩阵的高效迭代。
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。