logo of bytedance

字节跳动AML机器学习平台SRE工程师

社招全职3年以上A38109地点:北京状态:招聘

任职要求


1、三年以上运维开发项目经验;
2、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言;
3、有大型分布式系统的资源管理和任务调度系统运维经验,熟悉Kubernetes生态和架构;
4、有强烈的工作责任心,出色的学习能力、沟通能力和自驱力,良好的团队合作精神;
5、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
6、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

加分项:
1、从事过大规模分布式系统的运维;
2、有 GPU 服务器的运维经验。

工作职责


团队介绍:AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。

1、负责机器学习系统的稳定运转,支持模型开发、训练与部署;
2、负责GPU/NPU/CPU和存储等资源的管理与规划、成本与预算;
3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理;
4、开发自动化工具或平台,提升资源利用率和运维人效。
包括英文材料
Linux+
Go+
Python+
Bash+
分布式系统+
Kubernetes+
相关职位

logo of bytedance
社招2年以上A252507

1、负责AML-机器学习平台的开发与优化,打造国内领先的聚焦AI开发者体验的机器学习平台; 2、从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。

更新于 2023-09-06
logo of bytedance
社招2年以上A247110

1、负责AML-机器学习平台的开发与优化,打造国内领先的聚焦AI开发者体验的机器学习平台; 2、从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。

更新于 2023-11-15
logo of bytedance
社招5年以上A04383

1、参与制定并执行大模型、机器学习平台产品运营动作,包括用户Oncall、用户访谈、产品文档维护等,提升产品品牌与口碑; 2、通过运营动作,协助产品和研发团队定位用户需求及产品问题,为产品优化提供有价值的建议,推动产品迭代升级,提升用户满意度; 3、基于内部业务团队、外部客户需求,快速抽象出平台产品功能,与合作团队(产品、产品解决方案、销售、市场、法务、合规等)紧密合作,制定相关规划并协调落地; 4、多维度监测产品效果与动态,关注用户反馈及产品发展趋势,及时调整运营策略。

更新于 2023-12-19
logo of bytedance
社招A181972

AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。

更新于 2023-10-23