美团【Longcat实习】大模型训练AI工程师
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1.计算机、电子工程、数学等相关专业硕士及以上学历 2.有一定大模型训练/推理/分布式系统相关开发经验 3.熟悉PyTorch/Megatron-LM/DeepSpeed等主流框架中至少一个的内部实现 4.熟悉至…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
本岗位覆盖以下主要技术方向: 1.方向一:文本/多模态预训练 • 设计和优化千亿级参数大模型的分布式训练系统,支持文本基座预训练和原生多模态训练的正确性、性能和稳定性 • 负责训练框架核心模块(通信、调度、容错、Checkpoint、数据加载)的架构设计和性能优化,在同等硬件条件下持续提升训练吞吐 • 协同算法迭代和硬件演进,针对新模型架构(MoE、超长序列、多模态融合)快速完成训练适配和性能验证 • 作为工程Pipeline的上游起点,持续推进训练Infra的架构迭代方向 2.方向二:强化学习框架 • 构建并提升在线RL训练系统的性能和Scale能力,打通策略更新、环境交互、奖励建模的端到端训练流程 • 支持Chat/Thinking/Agentic以及未来多种RL范式(PPO/GRPO/DPO等),和算法Codesign推进RL架构迭代 • 设计高效的Actor-Critic架构、经验回放机制和分布式采样系统 • 负责RL训练的性能瓶颈分析和优化,包括GPU利用率提升、通信开销降低、训练稳定性保障 3.方向三:异构算力适配 • 建设迭代多种异构算力(GPU/NPU等)的验证和适配方案,包括稳定性保障、精度验证和高性能runtime • 开发调优GPU和NPU架构的通信算子,推进超节点架构的最佳实践 • 面向RL采样场景,深入优化NPU架构的推理性能 • 跟踪硬件生态发展,评估新硬件的技术价值,输出选型建议和规模化落地方案 4.方向四:高性能内核 • 定制开发高性能计算内核,深入发掘GPU/NPU等不同硬件架构的优化空间 • 推进算子开发范式的迭代,探索自动化算子生成(如LLM辅助生成高性能kernel)
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
还有更多 •••