logo of baidu

百度云原生AI计算工程师(J71045)

社招全职ACG地点:北京状态:招聘

任职要求


任职资格
-计算机及相关专业本科及以上学历
- 熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时、容器网络等技术,有Kubernetes开发和维护经验
- 对Kubeflow、Volcan…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:百度智能云AI计算部云原生AI计算团队致力于构建先进的通用和人工智能算力基础设施。在这个团队中,您将有机会与一流的工程师合作,深入参与到训练推理任务管理、异构资源调度、虚拟化混布、容器存储、分布式训练和推理等技术的创新和应用中。这是一个非常令人兴奋和有挑战性的团队,让我们携手,一起深入探索AI和云计算的无尽潜力
岗位职责:
-负责大规模AI计算集群基础设施和产品的设计与研发工作,支撑内部业务和外部客户需求
- 构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率
-基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等
-基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力
- 提升服务和产品的稳定性,优化服务性能和可扩展性
包括英文材料
学历+
Kubernetes+
还有更多 •••
相关职位

logo of baidu
社招ACG

团队介绍:百度智能云AI计算部云原生AI计算团队致力于构建先进的通用和人工智能算力基础设施。在这个团队中,您将有机会与一流的工程师合作,深入参与到训练推理任务管理、异构资源调度、虚拟化混布、容器存储、分布式训练和推理等技术的创新和应用中。这是一个非常令人兴奋和有挑战性的团队,让我们携手,一起深入探索AI和云计算的无尽潜力 岗位职责: -负责大规模AI计算集群基础设施和产品的设计与研发工作,支撑内部业务和外部客户需求 -构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率 -基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等 -基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力 -提升服务和产品的稳定性,优化服务性能和可扩展性

更新于 2025-04-14北京
logo of baidu
社招ACG

-负责大规模AI计算集群基础设施和产品的设计与研发工作,支撑内部业务和外部客户需求 -构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率 -基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等 -基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力 -提升服务和产品的稳定性,优化服务性能和可扩展性

更新于 2024-10-11北京
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

北京|上海|深圳
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

北京|上海|深圳