logo of bytedance

字节跳动AML机器学习系统工程师

社招全职A208039地点:北京状态:招聘

任职要求


1、优秀的代码能力、数据结构和基础算法功底,熟练C/C++Python,ACM/ICPC、NOI/IOI等比赛获奖者优先;
2、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch);
3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
5、良好的沟通协作能力,能和团队一起探索新技术,推进技术进步。

加分项:
1、在大模型领域,参与过大影响力的项目或论文者优先;
2、熟悉NLP、CV相关的算法和技术,熟悉大模型训练、RL算法者优先;
3、有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。

工作职责


负责公司大模型的系统研发,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。

主要工作方向包括:
1、负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关;
2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等;
3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化技术的引入落地;
4、与算法部门深度合作,进行算法与系统的联合优化。
包括英文材料
数据结构+
算法+
C+
C+++
Python+
机器学习+
TensorFlow+
PyTorch+
分布式系统+
大模型+
NLP+
强化学习+
CUDA+
相关职位

logo of bytedance
社招A181972

AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。

更新于 2023-10-23
logo of bytedance
社招1年以上A159796

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-01-03
logo of bytedance
社招A139475

AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。

更新于 2023-10-23
logo of bytedance
社招1年以上A112057

AML(Applied Machine Learning)机器学习系统团队专注于机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统架构、丰富的异构计算资源和极致的端到端的机器学习服务体验,为全公司的产品和业务提供核心技术支持和服务。 1、负责维护机器学习系统的稳定运转,支持模型开发、训练与部署的多个环节; 2、负责资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源; 3、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理; 4、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升。

更新于 2024-06-14