字节跳动Devops/运维开发工程师-Data AML
社招全职A66864地点:北京状态:招聘
任职要求
1、掌握Python/Golang中至少一种语言,并具扎实编码能力; 2、掌握MySQL、Redis、MQ等常用存储系统的使用,具备一定的问题排查和调优能力; 3、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,良好的团队合作精神; 4、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。 加分项 1、有搜索系统,推荐系统等上层业务系统项目经验/运维经验优先; 2、对于分布式存储:如HDFS,LevelDB/RockDB等存储服务经验优先; 3、熟悉Clickhouse,Prometheus,Influxdb并有使用经验者优先; 4、熟悉甚至有YARN、Kubernetes(K8s)、Mesos等开源调度框架的项目经验者优先; 5、熟悉云计算知识,包括虚拟机,容器等,对网络、消息队列有一定理解和认识者优先; 6、有CPU/GPU资源管理平台建设经验者优先。
工作职责
团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、保障机器学习系统的稳定运转; 2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性; 3、负责分布式系统的监控与指标建设; 4、负责在离线集群的云平台化、资源优化、SLA保障。
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
MySQL+
https://juejin.cn/post/7190306988939542585
这是一篇 MySQL 通关一篇过硬核经验学习路线,包括数据库相关知识,SQL语句的使用,数据库约束,设计等。
[英文] MySQL Tutorial
https://www.mysqltutorial.org/
your go-to resource for mastering MySQL in a fast, easy, and enjoyable way.
https://www.youtube.com/watch?v=5OdVJbNCSso
MySQL SQL tutorial for beginners
https://www.youtube.com/watch?v=7S_tz1z_5bA
This beginner-friendly course teaches you SQL from scratch.
Redis+
[英文] Developer Hub
https://redis.io/dev/
Get all the tutorials, learning paths, and more you need to start building—fast.
https://www.runoob.com/redis/redis-tutorial.html
REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。
https://www.youtube.com/watch?v=jgpVdJB2sKQ
In this video I will be covering Redis in depth from how to install it, what commands you can use, all the way to how to use it in a real world project.
消息队列+
https://www.youtube.com/watch?v=xErwDaOc-Gs
推荐系统+
[英文] Recommender Systems
https://www.d2l.ai/chapter_recommender-systems/index.html
Recommender systems are widely employed in industry and are ubiquitous in our daily lives.
HDFS+
https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.
https://www.ibm.com/cn-zh/think/topics/hdfs
Hadoop 分布式文件系统 (HDFS) 是一种管理大型数据集的文件系统,可在商用硬件上运行。
ClickHouse+
[英文] Advanced Tutorial
https://clickhouse.com/docs/tutorial
Learn how to ingest and query data in ClickHouse using the New York City taxi example dataset.
https://www.youtube.com/watch?v=FtoWGT7kS-c
ClickHouse is an open-source column-oriented DBMS for online analytical processing that allows users to generate analytical reports using SQL queries in real-time.
https://www.youtube.com/watch?v=Rhe-kUyrFUE&list=PL0Z2YDlm0b3gcY5R_MUo4fT5bPqUQ66ep
Prometheus+
https://grafana.com/docs/grafana/latest/getting-started/get-started-grafana-prometheus/
Prometheus is an open source monitoring system for which Grafana provides out-of-the-box support.
https://prometheus.io/docs/tutorials/getting_started/
Prometheus is a system monitoring and alerting system.
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Mesos+
https://www.baeldung.com/apache-mesos
Apache Mesos is a platform that allows effective resource sharing between such applications.
https://www.oreilly.com/library/view/learn-apache-mesos/9781789137385/
Learn Apache Mesos is the go-to book for anyone eager to master the power of efficient resource management and cluster deployment with Apache Mesos.
相关职位
社招A63278
1、保障机器学习系统的稳定运转; 2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性; 3、负责分布式系统的监控与指标建设; 4、负责在离线集群的云平台化、资源优化、SLA保障。
更新于 2024-06-14
社招A160138
1、保障机器学习系统的稳定运转; 2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性; 3、负责分布式系统的监控与指标建设; 4、负责在离线集群的云平台化、资源优化、SLA保障。
更新于 2024-06-14
社招2年以上A162864
1、参与运维平台的架构重构和功能迭代,提升运维效率和使用体验; 2、参与多云管理平台的改版和优化,提升发布效率和使用体验; 3、参与推荐系统版本管理和升级管理,提升升级效率; 4、包括但不限于以下工作:后端业务开发、基于DevOps理念的业务拓展、 现在平台功能模块的优化和维护; 5、参与各专项技术调研,新技术引入等前瞻项目。
更新于 2024-10-17