logo of bytedance

字节跳动高性能计算研发工程师-Ads Infra

社招全职A182521地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程、人工智能等相关专业,具备扎实的计算机基础;
2、熟悉Linux操作系统和开发环境,熟练掌握C/C++/Python等一种或多种编程语言并深入了解语言特性,具备良好的数据结构算法基础和系统设计能力;
3、拥有强烈的求知欲、优秀的学习和沟通能力;
4、熟悉至少一种机器学习框架(PyTorch/TensorFlow/PaddlePaddle或其他自研框架),熟练掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护。

加分项:
1、熟悉主流高性能并行编程技术,有GPU编程经验(CUDA或Triton);
2、有TensorRT/Cutlass开发经验,熟悉TRT-LLM、VLLM等推理框架;
3、熟悉开源ML编译器代码(XLA/MLIR/TVM)并有相关开发经验;
4、熟悉PyTorch、FSDP、DeepSpeedMegatron等业界主流分布框架的使用和原理。

工作职责


1、针对广告/推荐/搜索等场景,优化模型训练/推理的计算图执行效率;
2、通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能训推引擎;
3、设计和开发高性能算子库,研究最新的GPU计算技术和优化方法,以充分利用GPU/NPU的并行计算能力,支持各种机器学习和深度学习模型的构建和部署;
4、负责机器学习系统前瞻技术的调研和引入,例如最新硬件架构、异构计算系统、GPU优化技术、编译优化技术的引入和落地。
包括英文材料
学历+
Linux+
C+
C+++
Python+
数据结构+
算法+
系统设计+
机器学习+
PyTorch+
TensorFlow+
PaddlePaddle+
分布式系统+
CUDA+
TensorRT+
大模型+
DeepSpeed+
Megatron+
相关职位

logo of bytedance
社招A92007

1、针对广告/推荐/搜索等场景,优化模型训练/推理的计算图执行效率; 2、通过编译优化、模型并行优化、图融合、高性能算子开发、低精度计算、Memory复用、Cache优化、高并发服务请求优化等技术,打造业界领先的高性能训推引擎; 3、设计和开发高性能算子库,研究最新的GPU计算技术和优化方法,以充分利用GPU/NPU的并行计算能力,支持各种机器学习和深度学习模型的构建和部署; 4、负责机器学习系统前瞻技术的调研和引入,例如最新硬件架构、异构计算系统、GPU优化技术、编译优化技术的引入和落地。

更新于 2025-04-02
logo of bytedance
社招A202598

1、为抖音集团广告算法模型的流式训练、批式训练、生成式训练提供数据支持(用户行为序列/用户行为表征/候选标的表征); 2、针对广告业务全链路的数据需求,从数据全生命周期视角设计并实现高性能、高可用、低延迟的数据生产/加工/存储/消费为一体的通用解决方案; 3、参与探索内容理解能力、复杂前沿模型在广告业务中的应用与架构平台化,构建并优化商业化商品解决方案; 4、负责建设数据平台与架构,针对不同类型的数据制定研发标准和规范,支持各类数据的探查和发现,支持海量业务需求,保障业务的可持续迭代。

更新于 2025-04-02
logo of sensetime
社招1-5年系统开发

1. 开发多模态场景下的高性能推理计算平台,优化车载大模型业务训练与推理性能,助力业务落地; 2. 构建自研高性能引擎,跟踪前沿技术,打造领先的推理平台; 3. 基于 GPU/CPU 搭建推理系统,提升 AI 系统技术水平,加速多模态视觉及语言模型; 4. 负责音频、视频、文本多模态工程全周期开发,涵盖数据准备 / 处理加速、模型部署评估;

更新于 2025-03-20
logo of sohu
社招智能媒体研发中心

1、负责推理加速算法的研发和实现,包括但不限于模型剪枝、模型量化、模型蒸馏、模型压缩等,负责深度学习模型的量化和蒸馏,实现高效的模型压缩和部署,提高模型的运行效率和推理速度。 2、负责LLM/多模态模型的端到端部署和流程优化,探索包括但不限于推理引擎的开发、模型优化和压缩、模型部署的端到端流程设计等。 3、负责设计和研发AI端到端任务编排体系,提升AI大模型在业务中的应用效率。 4、负责优化计算集群的资源调度和弹性计算策略,提升集群的资源利用率。 5、负责算法底层工程的链路设计和工程落地,提高服务的运行效率。

更新于 2025-03-10