字节跳动机器学习系统研发工程师-Ads Infra
任职要求
1、本科及以上学历,计算机、软件工程、人工智能等相关专业,具备扎实的计算机基础; 2、熟悉Linux操作系统和开发环境,熟练掌握C/C++/Python等一种或多种编程语言并深入了解语言特性,具备良好的数据结构、算法基础和系统设计能力; 3、拥有强烈的求知欲、优秀的学习和沟通能力; 4、熟悉至少一种机器学习框架(PyTorch/TensorFlow/PaddlePaddle或其他自研框架),熟练掌握分布式…
工作职责
1、针对广告/推荐/搜索等场景,优化模型训练/推理的计算图执行效率; 2、通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能训推引擎; 3、设计和开发高性能算子库,研究最新的GPU计算技术和优化方法,以充分利用GPU/NPU的并行计算能力,支持各种机器学习和深度学习模型的构建和部署; 4、负责机器学习系统前瞻技术的调研和引入,例如最新硬件架构、异构计算系统、GPU优化技术、编译优化技术的引入和落地。
1、针对广告/推荐/搜索等场景,优化模型训练/推理的计算图执行效率; 2、通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能训推引擎; 3、设计和开发高性能算子库,研究最新的GPU计算技术和优化方法,以充分利用GPU/NPU的并行计算能力,支持各种机器学习和深度学习模型的构建和部署; 4、负责机器学习系统前瞻技术的调研和引入,例如最新硬件架构、异构计算系统、GPU优化技术、编译优化技术的引入和落地。
1、为抖音集团广告算法模型的流式训练、批式训练、生成式训练提供数据支持(用户行为序列/用户行为表征/候选标的表征); 2、针对广告业务全链路的数据需求,从数据全生命周期视角设计并实现高性能、高可用、低延迟的数据生产/加工/存储/消费为一体的通用解决方案; 3、参与探索内容理解能力、复杂前沿模型在广告业务中的应用与架构平台化,构建并优化商业化商品解决方案; 4、负责建设数据平台与架构,针对不同类型的数据制定研发标准和规范,支持各类数据的探查和发现,支持海量业务需求,保障业务的可持续迭代。
1、为抖音集团广告业务打造可靠的算法模型流式训练、批式训练架构,包括样本拼接、训练策略、统一样本存储、批流一体训练框架等,为抖音集团广告算法模型提供高效、稳定的学习能力; 2、负责建设支撑广告百万级QPS请求、日均PB级数据增量的算法数据仓库和数据湖; 3、负责建设广告用户画像平台与架构,为广告基础定向、算法模型训练等场景提供高质量的用户画像数据; 4、负责建设广告样本平台与架构,定义样本研发标准与规范,支撑海量业务需求,保障业务的可持续迭代。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。