
得物机器学习平台研发工程师/专家
任职要求
1. 计算机或电子通信相关专业本科以上,3年以上Python/Java开发经验; 2. 有一站式机器学习平台设计和开发经验,熟悉MLOps平台化开发工作; 4. 熟悉搜索/广告/推荐模型训练和预估推理流程,了解深度学习训练框架、推理框架; 5. [加分项…
工作职责
1. 负责一站式机器学习平台的设计研发与迭代改进,包含前端,后台,平台任务流程设计和研发,为算法同学提供一站式模型训练和上线服务的能力; 3. 协同训练框架、推理框架等团队确保一站式服务平台的稳定性和易用性; 4. 服务算法模型团队,提供样本管理、模型开发调试、模型训练任务管理和版本管理、一键式上线服务部署等功能的平台化能力; 5. 对接容器算力团队,屏蔽算法团队对底层算力资源的感知,提供模型训练和模型服务的资源和任务调度能力; 6. 负责模型平台的任务、资源、成本等数据收集和自动化分析、展示功能开发,推动公司机器学习成本优化工作。

我们是得物机器学习平台团队,负责构建面向搜索推荐场景的一站式深度学习平台。你将参与机器学习平台的研发工作。 专注于每日数百亿PV请求的在线高可靠、高并发的CPU/GPU异构推理计算框架和通用的特征平台建设;

团队负责研发一站式搜广推模型机器学习平台,该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架,支持GPU单机多卡、多机多卡训练,支持稀疏参数的多级缓存架构和异步流水训练,满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求; 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化,个别自定义GPU算子的cuda kernel开发和优化; 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率。
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。