美团【Longcat实习】大模型训练AI工程师

实习兼职核心本地商业-基础研发平台2026-07-01地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1.计算机、电子工程、数学等相关专业硕士及以上学历
2.有一定大模型训练/推理/分布式系统相关开发经验
3.熟悉PyTorch/Megatron-LM/DeepSpeed等主流框架中至少一个的内部实现
4.熟悉至…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

本岗位覆盖以下主要技术方向：
1.方向一：文本/多模态预训练
• 设计和优化千亿级参数大模型的分布式训练系统，支持文本基座预训练和原生多模态训练的正确性、性能和稳定性
• 负责训练框架核心模块（通信、调度、容错、Checkpoint、数据加载）的架构设计和性能优化，在同等硬件条件下持续提升训练吞吐
• 协同算法迭代和硬件演进，针对新模型架构（MoE、超长序列、多模态融合）快速完成训练适配和性能验证
• 作为工程Pipeline的上游起点，持续推进训练Infra的架构迭代方向
2.方向二：强化学习框架
• 构建并提升在线RL训练系统的性能和Scale能力，打通策略更新、环境交互、奖励建模的端到端训练流程
• 支持Chat/Thinking/Agentic以及未来多种RL范式（PPO/GRPO/DPO等），和算法Codesign推进RL架构迭代
• 设计高效的Actor-Critic架构、经验回放机制和分布式采样系统
• 负责RL训练的性能瓶颈分析和优化，包括GPU利用率提升、通信开销降低、训练稳定性保障
3.方向三：异构算力适配
• 建设迭代多种异构算力（GPU/NPU等）的验证和适配方案，包括稳定性保障、精度验证和高性能runtime
• 开发调优GPU和NPU架构的通信算子，推进超节点架构的最佳实践
• 面向RL采样场景，深入优化NPU架构的推理性能
• 跟踪硬件生态发展，评估新硬件的技术价值，输出选型建议和规模化落地方案
4.方向四：高性能内核
• 定制开发高性能计算内核，深入发掘GPU/NPU等不同硬件架构的优化空间
• 推进算子开发范式的迭代，探索自动化算子生成（如LLM辅助生成高性能kernel）

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

分布式系统+

PyTorch+

还有更多 •••

登录查看完整学习资料