logo of dji

大疆中/高级机器学习平台工程师(训练平台)

社招全职算法地点:深圳状态:招聘

任职要求


1. 精通Go/Python,熟悉Kubernetes+Docker云原生技术栈;
2. 深度掌握至少两家主流公有云API;
3. 熟悉分布式存储系统,具备大规模数据传输优化经验;
4. 了解MLOps生态工具链,有落地MLOps平台对接经验者优先。

工作职责


1. 构建多云异构资源调度体系,整合多家云厂商的AI算力资源,设计优先级策略,实现跨平台资源池化管理和高效动态分配;
2. 设计数据智能路由方案,确保训练数据在混合云环境下高效流动,优化跨云数据同步效率;
3. 对接MLOps系统,实现训练任务编排、版本控制、模型监控等功能的深度集成;
4. 开发资源效能监控系统,实时追踪GPU利用率、任务排队时长等核心指标。
包括英文材料
Go+
Python+
Kubernetes+
Docker+
相关职位

logo of mi
社招5年以上A174123

1. 负责一站式机器学习平台的架构升级,支撑百亿级广告收入规模下的商业化算法模型高效迭代 2. 负责深度学习工作流各环节的深度优化,包括特征和样本生产提效,模型训练加速等 3. 与商业化算法团队密切合作,支撑广告算法前沿技术探索和落地

更新于 2024-08-19
logo of dji
社招算法

1. 负责业界/学界SOTA方案调研和原型验证; 2. 结合公司业务特点,给出AI Infra建设规划(重点是训练&推理优化); 3. 针对不同技术方案的成本、收益,给出方案选型建议; 4. 方案落地过程中进行风险把控和方向纠偏; 5. 指导一线工程师解决新方案落地过程中的卡点。

更新于 2025-04-22
logo of zhihu
社招

1. 负责自研机器学习平台的研发,设计和实现机器学习平台相关的基础设施和工具链; 2. 负责机器学习平台的需求落地,关注模型训练、推理过程中的稳定性、资源利用率等问题; 3. 负责GPU集群的运维工作。

更新于 2025-07-25
logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-18