logo of dji

大疆中/高级机器学习平台工程师(训练平台)

社招全职算法地点:深圳状态:招聘

任职要求


1. 精通Go/Python,熟悉Kubernetes+Docker云原生技术栈;
2. 深度掌握至少两家主流公有云API;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 构建多云异构资源调度体系,整合多家云厂商的AI算力资源,设计优先级策略,实现跨平台资源池化管理和高效动态分配;
2. 设计数据智能路由方案,确保训练数据在混合云环境下高效流动,优化跨云数据同步效率;
3. 对接MLOps系统,实现训练任务编排、版本控制、模型监控等功能的深度集成;
4. 开发资源效能监控系统,实时追踪GPU利用率、任务排队时长等核心指标。
包括英文材料
Go+
Python+
还有更多 •••
相关职位

logo of mi
社招5年以上A174123

1. 负责一站式机器学习平台的架构升级,支撑百亿级广告收入规模下的商业化算法模型高效迭代 2. 负责深度学习工作流各环节的深度优化,包括特征和样本生产提效,模型训练加速等 3. 与商业化算法团队密切合作,支撑广告算法前沿技术探索和落地

更新于 2024-08-19北京
logo of dji
社招算法

1. 负责业界/学界SOTA方案调研和原型验证; 2. 结合公司业务特点,给出AI Infra建设规划(重点是训练&推理优化); 3. 针对不同技术方案的成本、收益,给出方案选型建议; 4. 方案落地过程中进行风险把控和方向纠偏; 5. 指导一线工程师解决新方案落地过程中的卡点。

更新于 2025-04-22上海|深圳
logo of didi
社招技术

滴滴核心的国际化交易市场架构方向,负责机器学习平台,特征生产以及模型推理服务的研发工作 1,负责机器学习平台的需求分析、架构设计以及核心代码实现,重点覆盖资源调度、自动化训练流程、模型部署与服务化、性能监控等关键模块。 2,主导平台在高并发场景下的性能调优,解决大规模分布式训练任务中的稳定性与效率瓶颈,提升GPU等异构计算资源的利用率。 3,设计与开发提升算法研发效能的内部工具、SDK等,降低平台使用门槛,支持从数据准备到模型上线的完整MLOps流程。

更新于 2026-02-25
logo of zhihu
社招

1. 负责自研机器学习平台的研发,设计和实现机器学习平台相关的基础设施和工具链; 2. 负责机器学习平台的需求落地,关注模型训练、推理过程中的稳定性、资源利用率等问题; 3. 负责GPU集群的运维工作。

更新于 2025-07-25北京