logo of xiaohongshu

小红书深度学习训练引擎研发工程师(实习)

实习兼职机器学习平台地点:北京状态:招聘

任职要求


任职资格:
1、优秀的代码能力、数据结构和基础算法功底,熟悉C++/Python开发,熟悉 Linux/Git开发环境;
2、熟悉至少一种主流基础深度学习训练框架(TensorFlow/PyTorch/PaddlePaddle等)的使用和实现;
3、熟悉主流LLM模型结构,熟悉至少一种主流LLM训练框架(veRL/Megatron-LM/DeepSpeed等)的使用和实现;
4、熟悉GPU硬件架构,了解GPU 软件栈(CUDA,cuDNN),具备 GPU 性能分析的能力;
5、有强烈的工作责任心,较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步。

加分项:
1、熟悉DP/TP/PP/ZeRO等分布式训练策略原理,有大模型训练调优分析经验者优先;
2、熟悉至少一种AI编译加速组件者优先,包含但不限与TorchInductor/TVM/Triton/XLA等;
5、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识者优先;
6、熟悉NCCL/RDMA/IB/RoCE相关知识者优先;

工作职责


1、研发面向大语言/多模态/CV/NLP等类型模型的训练框架;
2、参与训练框架研发优化,包括分布式训练及微调工具链、训练性能优化、数据读取等AI基础设施的建设等;
3、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效;
4、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。
包括英文材料
数据结构+
算法+
C+++
Python+
Linux+
Git+
深度学习+
TensorFlow+
PyTorch+
PaddlePaddle+
大模型+
Megatron+
DeepSpeed+
CUDA+
相关职位

logo of xiaohongshu
实习引擎

工作职责: 1、参与千亿级大模型的分布式强化学习 RL 训练框架研发,提升百卡~千卡级训练吞吐与资源利用率 2、参与 100B以上多模态强化学习算法流程适配(如DAPO等),各领域任务的 RL 正确性验证 3、实验并调优不同并行策略(Tensor/ZeRO/FSDP/Pipeline Parallelism)在超大规模模型上的最佳配置组合 4、协助定位分析分布式训练中的关键性能瓶颈(如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等),设计并实施优化方案进行验证。 5、参与研发/优化训练引擎的关键特性,如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子(Kernel)的集成与优化。

logo of xiaohongshu
实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架; 2、参与推理框架研发优化,包括算子优化、推理架构优化、异构调度等多种技术研发落地等; 3、参与训练框架研发优化,包括数据读取、分布式训练及微调工具链等AI基础设施的建设等; 4、参与多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效; 5、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 6、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

logo of xiaohongshu
实习引擎

1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2025-08-05
logo of kuaishou
实习J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-05-23