logo of bytedance

字节跳动机器学习系统SRE工程师-Seed

社招全职1年以上A112966地点:北京状态:招聘

任职要求


1、一年以上运维开发项目经验;
2、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言;
3、有分布式系统的资源管理和任务调度系统运维经验,熟悉Kubernetes生态和架构,具备1年以上相关的运维经验;
4、熟悉Docker/Kata等容器化技术,具备1年以上运维经验;
5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分。

工作职责


团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。
Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。

1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节;
2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据;
3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率;
4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境;
5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。
包括英文材料
Linux+
Go+
Python+
Bash+
分布式系统+
Kubernetes+
Docker+
相关职位

logo of bytedance
社招1年以上A185243

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节; 2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据; 3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率; 4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境; 5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。

更新于 2024-11-22
logo of bytedance
社招1年以上A136320

团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节; 2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据; 3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率; 4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境; 5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。

更新于 2024-11-22
logo of bytedance
社招1年以上A159796

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-01-03
logo of bytedance
社招1年以上A112057

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-06-14