logo of bytedance

字节跳动AML机器学习系统SRE工程师

社招全职1年以上A106816地点:北京状态:招聘

任职要求


1、一年以上运维开发项目经验;
2、熟练掌握 Linux 环境下的 Go/Python/Shell 等1至2种以上语言;
3、有大型分布式系统的资源管理和任务调度系统运维经验,熟悉 Kubernetes生态和架构,具备1年以上相关的运维经验;
4、熟悉 Docker/Kata 等容器化技术,具备1年以上运维经验;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

加分项:
1、从事过大规模分布式系统的运维;
2、有 GPU 服务器的运维经验。

工作职责


AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。

1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节;
2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源;
3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理;
4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。
包括英文材料
Linux+
Go+
Python+
Bash+
分布式系统+
Kubernetes+
Docker+
相关职位

logo of bytedance
社招1年以上A112057

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-06-14
logo of bytedance
社招1年以上A106674

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-06-14
logo of bytedance
社招1年以上A159796

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-01-03
logo of bytedance
社招3年以上A38109

团队介绍:AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习系统的稳定运转,支持模型开发、训练与部署; 2、负责GPU/NPU/CPU和存储等资源的管理与规划、成本与预算; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、开发自动化工具或平台,提升资源利用率和运维人效。

更新于 2024-12-06