logo of bytedance

字节跳动Devops/运维开发工程师-Data AML

社招全职A66864地点:北京状态:招聘

任职要求


1、掌握Python/Golang中至少一种语言,并具扎实编码能力;
2、掌握MySQLRedisMQ等常用存储系统的使用,具备一定的问题排查和调优能力;
3、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神;
4、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

加分项
1、有搜索系统,推荐系统等上层业务系统项目经验/运维经验优先;
2、对于分布式存储:如HDFS,LevelDB/RockDB等存储服务经验优先;
3、熟悉ClickhousePrometheus,Influxdb并有使用经验者优先;
4、熟悉甚至有YARN、KubernetesK8s)、Mesos等开源调度框架的项目经验者优先;
5、熟悉云计算知识,包括虚拟机,容器等,对网络、消息队列有一定理解和认识者优先;
6、有CPU/GPU资源管理平台建设经验者优先。

工作职责


团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。

1、保障机器学习系统的稳定运转;
2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性;
3、负责分布式系统的监控与指标建设;
4、负责在离线集群的云平台化、资源优化、SLA保障。
包括英文材料
Python+
Go+
MySQL+
Redis+
消息队列+
推荐系统+
HDFS+
ClickHouse+
Prometheus+
Kubernetes+
Mesos+
相关职位

logo of bytedance
社招A63278

1、保障机器学习系统的稳定运转; 2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性; 3、负责分布式系统的监控与指标建设; 4、负责在离线集群的云平台化、资源优化、SLA保障。

更新于 2024-06-14
logo of bytedance
社招A160138

1、保障机器学习系统的稳定运转; 2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性; 3、负责分布式系统的监控与指标建设; 4、负责在离线集群的云平台化、资源优化、SLA保障。

更新于 2024-06-14
logo of bytedance
社招2年以上A162864

1、参与运维平台的架构重构和功能迭代,提升运维效率和使用体验; 2、参与多云管理平台的改版和优化,提升发布效率和使用体验; 3、参与推荐系统版本管理和升级管理,提升升级效率; 4、包括但不限于以下工作:后端业务开发、基于DevOps理念的业务拓展、 现在平台功能模块的优化和维护; 5、参与各专项技术调研,新技术引入等前瞻项目。

更新于 2024-10-17
logo of bytedance
社招2年以上A222366

1、参与运维平台的架构重构和功能迭代,提升运维效率和使用体验; 2、参与多云管理平台的改版和优化,提升发布效率和使用体验; 3、参与推荐系统版本管理和升级管理,提升升级效率; 4、包括但不限于以下工作:后端业务开发、基于DevOps理念的业务拓展、 现在平台功能模块的优化和维护; 5、参与各专项技术调研,新技术引入等前瞻项目。

更新于 2024-04-03