美团【大模型北斗实习】大语言模型预训练结构和策略

实习兼职核心本地商业-基础研发平台2025-05-23地点：北京 | 香港 | 上海状态：招聘

扫码手机上打开

任职要求

1）熟悉NLP、LLM、MLsys、Optimization、OR、Control、RL等相关领域，对其中一个或多个方向有深入的研究经历，且有相关实际项目经验。
2）熟悉Python、C++等至少一门编程语言，熟悉LINUX环…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

探索下一代大模型预训练范式，从模型结构、训练策略、数据策略、算力利用率等角度切入，打造具有更强能力和更高潜力的基座模型。
1）设计更高效的模型结构，提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力，如长序列能力、记忆能力等。
2）探索更科学的训练策略，对影响training dynamic的关键变量（如学习率、batchsize、初始化等）形成更科学的认知，探索更适合大模型的optimizer等。
3）研究模型结构和数据的耦合关系，优化分阶段训练范式。
4）结合MLsys解决大规模训练中遇到的卡点问题，实现算法和工程联合设计。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

大模型+

Python+

C+++

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

【大模型北斗实习】大模型预训练数据构建理论与算法研究

实习核心本地商业-基

本课题研究方向包括但不限于： 1）构建端到端的网页文本内容提取系统，针对网络数据的复杂性，从系统效率和模型效果角度持续优化内容提取算法，迭代生产标准。 2）设计预训练数据的全局质量优化和治理方案，优化全局采样策略、隐私保护和安全合规，提升基座模型训练效率和最终效果。 3）建设多模态交错数据处理链路，通过数据分析和配比实验等手段优化多模态数据质量和多样性，支撑多模态大模型数据需求。 4）推动数据驱动的模型性能突破。 5）负责千亿级网页的大规模处理和万亿级token数据生产，通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。

更新于 2025-05-23北京|上海

【基座大模型北斗实习】Agentic Foundation Model 学习范式前沿研究

实习核心本地商业-基

随着大语言模型从通用问答走向复杂任务执行，Agent能力正成为模型演进的关键方向。传统大模型虽具备海量知识，但面对复杂任务的自主规划、工具调用及长期记忆管理时，往往难以应对。本课题旨在探索Midtrain这一关键阶段，推动通用基座模型向原生Agentic Foundation Model演进，为构建下一代自主智能体提供坚实的底座支持。 1. 大规模高质量数据体系与合成数据建设数据体系构建：建设 Trillion 级别的大规模跨模态数据处理与合成链路。负责从训练数据获取到配比建模的全流程优化合成方法演进：探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术，制定合成数据应用策略理论探索：研究Data Scaling Laws，解决数据扩展中的模型坍塌（Model Collapse）与多样性瓶颈问题，通过课程学习（Curriculum Learning）等训练策略，显著优化Token/FLOPs转化效率 2. 长上下文 (Long Context) 与高效架构演进长窗口突破: 持续Scaling Up模型的Context Length，优化超长上下文机制，重点提升LongCat基座模型在长上下文上的表现架构优化: 探索并验证MoE（混合专家）、稀疏注意力（Sparse Attention）、线性注意力等模型结构；结合剪枝与稀疏化技术，协同优化训练与推理效率，提升超长上下文场景下的效率上下文管理: 探索逐轮次和跨多轮次的上下文管理方法，并建立对应评测体系，从而减少冗余信息堆叠，实现高效思考和性能提升 3. 多模态能力融合与 Agent 赋能模态融合：探索多模态预训练新范式，突破模态融合瓶颈。利用多模态扩展定律指导数据与训练方案，提升模型在多模态交互场景下的原生能力复杂场景落地：面向 Agent、具身智能等前沿场景，提升模型的多模态指令遵循与复杂任务规划能力 4. 下一代训练范式与前沿技术探索自进化机制：协同上下游团队，探索模型自进化（Self-evolution）机制，研究RL在Mid-training阶段的应用能力扩展：研究推理阶段扩展（Test-time Scaling）及全模态链式思维（Omni-modal CoT），推动模型从单纯的“知识记忆”向“深度推理与问题解决”演进

更新于 2026-04-07北京|上海

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

AI平台开发工程师-数据方向-机器学习平台

社招3年以上机器学习平台

【业务介绍】作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM）模型迭代提供端到端的一站式服务；包括数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。【岗位职责】 1、负责机器学习链路，离在线数据相关的开发工作，包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作；包括样本平台，特征平台，训练平台，推理平台等AI应用后台建设等； 3、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

上海