小红书大模型分布式训练引擎研发工程师(实习)
实习兼职引擎地点:北京 | 上海状态:招聘
任职要求
任职资格: 1、优秀的代码能力、数据结构和基础算法功底,熟悉Python开发,熟悉 Linux/Git开发环境; 2、有较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步(⭐️有大牛带着成长) 2、熟悉至少一种主流基础深度学习训练框架(TensorFlow/PyTorch/PaddlePaddle等)的使用和实现; 3、了解主流LLM模型结构,使用过至少一种主流LLM训练框架(Megatron-LM/DeepSpeed/veRL等); 加分项:…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
工作职责: 1、参与千亿级大模型的分布式强化学习 RL 训练框架研发,提升百卡~千卡级训练吞吐与资源利用率 2、参与 100B以上多模态强化学习算法流程适配(如DAPO等),各领域任务的 RL 正确性验证 3、实验并调优不同并行策略(Tensor/ZeRO/FSDP/Pipeline Parallelism)在超大规模模型上的最佳配置组合 4、协助定位分析分布式训练中的关键性能瓶颈(如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等),设计并实施优化方案进行验证。 5、参与研发/优化训练引擎的关键特性,如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子(Kernel)的集成与优化。
包括英文材料
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
Git+
https://www.youtube.com/watch?v=rH3zE7VlIMs
Learn Git from start to finished in this full course written by ThePrimeagen.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
实习机器学习平台
1、研发面向大语言/多模态/CV/NLP等类型模型的训练框架; 2、参与训练框架研发优化,包括分布式训练及微调工具链、训练性能优化、数据读取等AI基础设施的建设等; 3、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 4、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。
北京
实习J1014
1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。
更新于 2025-05-23北京
实习J1020
1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。
更新于 2025-06-04北京