logo of bytedance

字节跳动AML-机器学习系统研发工程师

社招全职A181972地点:上海状态:招聘

任职要求


1、有C/C++/Python/Cuda开发经验,熟练使用Linux 系统/ GDB /Nsight等工具,ACM/ICPC/Codeforces等获奖者优先;
2、能够从产品思维、机器性能和稳定性、团队协作等多种视角,高标准要求自己的技术方案和每一行代码;
3、对如下一个或多个领域有经验,或者无经验但有浓厚的兴趣(须额外付出自己的时间进行深入研究和探索):
a. 大模型系统:基础模型的分布式训练(Scaling Laws)、高效微调(Lora/P-Tuning/RLHF)、推理引擎和优化(并行策略、量化压缩、算子优化等)、Transformer模型结构(Sparse/MoE/LongContext等);
b. AI+HPC:并行计算(CPU/Cuda/OpenCL)、通信(NCCL/MPI/RDMA/DPDK)、AI编译器(MLIR/TVM/Trition/LLVM)、Linux OS及Kernel;
c. 机器学习算法:各类基于梯度的经典算法与经典模型(ResNet/BERT/GPT/Swin Transformer/MLP-Mixer)、多模态(CLIP/BLIP/miniGPT4)。

工作职责


AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。

1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代;
2、负责解决系统高并发、高可靠性、高可扩展性等技术难关;
3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等;
4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地;
5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
包括英文材料
C+
C+++
Python+
CUDA+
Linux+
GDB+
Nsight+
大模型+
推理引擎+
Transformer+
HPC+
OpenCL+
LLVM+
机器学习+
算法+
BERT+
GPT+
相关职位

logo of bytedance
社招A139475

AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。

更新于 2023-10-23
logo of bytedance
社招A208039

负责公司大模型的系统研发,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。 主要工作方向包括: 1、负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-01-02
logo of bytedance
社招2年以上A252507

1、负责AML-机器学习平台的开发与优化,打造国内领先的聚焦AI开发者体验的机器学习平台; 2、从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。

更新于 2023-09-06
logo of bytedance
社招2年以上A247110

1、负责AML-机器学习平台的开发与优化,打造国内领先的聚焦AI开发者体验的机器学习平台; 2、从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。

更新于 2023-11-15