拼多多机器学习平台工程师-推理方向
任职要求
1、 计算机或相关专业本科以上学历, 2年以上的服务端开发经验; 2、熟悉常用机器学习框架的系统架构(tensorflow、caffe等); 3、C/C++基本功扎实,熟悉Linux开发环境和网络编程,算法基础扎实; 4、具有优秀的分析和解决问题的能力和态度; 加分项 1、有搜索引擎、推荐系统、广告系统经验者优先; 2、有机器学习平台开发经验(包括但不限于TensorFlow、PyTorch、PaddleP…
工作职责
1、负责机器学习平台的设计和开发,包括模型在线推理、高性能KV平台等系统; 2、设计、开发超大规模机器学习系统,优化现有技术方案,改善系统性能, 提高算法的整体迭代效率; 3、与业务团队积极沟通和合作,帮助业务更快的落地, 并持续优化和改进;
1、负责模型工程各个子系统的设计和迭代,包括模型在线推理、高性能KV平台等系统; 2、负责新技术调研和预研,紧跟模型工程的前沿技术; 3、负责重点项目的跟进,和业务团队密切合作,高效保质完成项目目标; 4、负责机器学习平台瓶颈的分析和优化,提升机器学习平台整体能力。
1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能
1、负责机器学习系统推理架构和产品的设计开发,支持火山方舟大模型平台和机器学习平台的产品业务; 2、负责深度模型推理任务为核心的在线架构设计与优化,充分利用各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源,构建多租环境下的稳定性、观测体系,实现高并发、高吞吐的大规模在线系统; 3、负责推理系统的产品化落地,打造稳定、可观测、体验一流的公有云推理平台。
1. 参与设计与研发快手公司级机器学习平台,赋能深度学习及大模型等核心AI的模型迭代; 2. 打造业界领先的机器学习自动化架构,支持模型开发、评估、部署、监控全链路智能闭环,集成模型版本控制、元数据管理等功能,支撑模型全生命周期管理,驱动核心业务指标持续突破; 3. 构建大模型分布式推理编排系统,实现多机角色调度,支持千亿级参数模型的分布式训练与推理任务拆分及协同计算; 4. 深度参与云原生AI基础设施的技术演进,研发包括:面向AI负载的预测式弹性伸缩系统,GPU资源调度与混部,高性能存储加速引擎等方向,持续推动云原生与AI技术的深度融合创新。