logo of xiaohongshu

小红书大模型推理引擎研发工程师(实习)

实习兼职引擎地点:北京状态:招聘

任职要求


1、优秀的代码能力、数据结构和基础算法功底,熟悉C++/Python开发,熟悉 Linux/Git 开发环境;
2、熟悉至少一种主流基础深度学习训练或推理框架(TensorFlow/PyTorch/PaddlePaddle/TensorRT等)的使用和实现;
3、熟悉主流LLM模型结构,熟悉至少一种主流LLM推理框架(vLLM/SGLang/TensorRT-LLM等)的使用和实现;
4、熟悉GPU硬件架构,了解GPU 软件栈(CUDA,cuDNN),具备 GPU 性能分析的能力;
5、有强烈的工作责任心,较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步。

加分项:
1、熟悉CUDA编程,有TensorRT或其它AI加速库、高性能算子开发经验者优先;
2、熟悉至少一种AI编译加速组件者优先,包含但不限与TorchInductor/TVM/Triton/XLA等;
3、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识者优先;
4、熟悉NCCL/RDMA/IB/RoCE相关知识者优先;
5、有优秀开源项目经历者优先。

工作职责


1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架;
2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架;
2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等;
3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
包括英文材料
数据结构+
算法+
C+++
Python+
Linux+
Git+
深度学习+
TensorFlow+
PyTorch+
PaddlePaddle+
TensorRT+
大模型+
vLLM+
SGLang+
CUDA+
相关职位

logo of meituan
实习核心本地商业-基

1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先

更新于 2025-04-07
logo of meituan
实习核心本地商业-基

1.负责LLM大语言模型的推理优化; 2.负责机器学习引擎的编译优化工作; 3.负责模型稀疏化和模型量化工作。

更新于 2025-02-26
logo of kuaishou
实习J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-05-23
logo of kuaishou
实习J1020

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-06-04