美团大模型引擎研发工程师(实习)
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1. 有扎实的计算机理论基础,熟练掌握C++或Python语言 2. 具备良好的问题分析和一定的解决能力,具有较好的学习能力和好奇心驱动。
工作职责
1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先
包括英文材料
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
相关职位
实习引擎
1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
更新于 2025-08-05
实习引擎
工作职责: 1、参与千亿级大模型的分布式强化学习 RL 训练框架研发,提升百卡~千卡级训练吞吐与资源利用率 2、参与 100B以上多模态强化学习算法流程适配(如DAPO等),各领域任务的 RL 正确性验证 3、实验并调优不同并行策略(Tensor/ZeRO/FSDP/Pipeline Parallelism)在超大规模模型上的最佳配置组合 4、协助定位分析分布式训练中的关键性能瓶颈(如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等),设计并实施优化方案进行验证。 5、参与研发/优化训练引擎的关键特性,如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子(Kernel)的集成与优化。
实习机器学习平台
1、研发面向大语言/多模态/CV/NLP等类型模型的训练框架; 2、参与训练框架研发优化,包括分布式训练及微调工具链、训练性能优化、数据读取等AI基础设施的建设等; 3、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 4、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。