logo of dewu

得物机器学习平台研发工程师/专家

社招全职3年以上技术类地点:北京 | 上海状态:招聘

任职要求


1. 计算机或电子通信相关专业本科以上,3年以上Python/Java开发经验;
2. 有一站式机器学习平台设计和开发经验,熟悉MLOps平台化开发工作;
4. 熟悉搜索/广告/推荐模型训练和预估推理流程,了解深度学习训练框架、推理框架;
5. [加分项] 熟悉kubeflowairflow等开源系统;
6. [加分项] 有一站式机器学习平台产品设计经验;
7. [加分项] 熟悉k8s等容器编排系统;
8. [加分项] 熟悉Jupyter NoteBook等交互式的编程环境平台化集成、搭建、运营和管理。

工作职责


1. 负责一站式机器学习平台的设计研发与迭代改进,包含前端,后台,平台任务流程设计和研发,为算法同学提供一站式模型训练和上线服务的能力;
3. 协同训练框架、推理框架等团队确保一站式服务平台的稳定性和易用性;
4. 服务算法模型团队,提供样本管理、模型开发调试、模型训练任务管理和版本管理、一键式上线服务部署等功能的平台化能力;
5. 对接容器算力团队,屏蔽算法团队对底层算力资源的感知,提供模型训练和模型服务的资源和任务调度能力;
6. 负责模型平台的任务、资源、成本等数据收集和自动化分析、展示功能开发,推动公司机器学习成本优化工作。
包括英文材料
Python+
Java+
机器学习+
深度学习+
Kubeflow+
Airflow+
Kubernetes+
Jupyter+
相关职位

logo of dewu
社招3年以上技术类

我们是得物机器学习平台团队,负责构建面向搜索推荐场景的一站式深度学习平台。你将参与机器学习平台的研发工作。 专注于每日数百亿PV请求的在线高可靠、高并发的CPU/GPU异构推理计算框架和通用的特征平台建设;

更新于 2023-12-26
logo of dewu
社招3年以上技术类

团队负责研发一站式搜广推模型机器学习平台,该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架,支持GPU单机多卡、多机多卡训练,支持稀疏参数的多级缓存架构和异步流水训练,满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求; 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化,个别自定义GPU算子的cuda kernel开发和优化; 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率。

更新于 2023-12-26
logo of amap
社招5年以上技术类-算法

1、负责高德算法平台的设计研发与迭代改进,为各业务线提供稳定易用、高性能的平台解决方案; 2、负责核心模块的设计与开发,支撑模型训练、自动迭代、特征平台、模型服务、模型管理、资源调度、服务可观测等AI全生命周期研发工作; 3、持续跟进业内AI平台与前沿技术进展,推动新技术在高德落地。

更新于 2025-08-21
logo of amap
社招3年以上技术类-运维

高德运维研发团队主要负责高德运维平台的建设,对服务稳定性和用户体验负责,主要围绕如下几个方向进行卓有成效的工作: - 高可用方向:围绕混沌工程、故障自愈、全链路故障定位 等前沿技术方向进行平台化建设和智能运维大规模业务落地,提升系统的稳定性水平。 - 资源管理方向:将机器学习技术应用于超大规模集群的资源管理实践中,围绕 资源画像、应用画像、容量管理、全自动化弹性伸缩 等前沿方向进行算法优化和平台化建设。 - 云原生方向:基于实际业务场景,建设云原生时代的云上运维平台,提升云上业务在变更发布、资源调度 等方面的效率。

更新于 2025-08-12