美团【大模型北斗实习】大模型预训练数据构建理论与算法研究
任职要求
1)计算机科学、数据科学、自然语言处理等相关专业,具备大模型相关背景,在相关领域有深入研究经历并有实际论文产出或项目经验。 2)扎实的编程功底,熟练掌握TensorFlow/PyTorch/Megatron等深度学习框架,熟悉Java/C++等编程语言;熟练掌握大数据处理工具,如Spark、Flink、Ray等。 3)熟悉大模型训练流程,熟悉Transformer模型结构,对GPT/LLAMA/MoE等模型架构有深入了解。 加分项: 1)有大模型预训练相关数据构建和处理项目经验者优先。 2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,ACL,EMNLP等)。
工作职责
本课题研究方向包括但不限于: 1)构建端到端的网页文本内容提取系统,针对网络数据的复杂性,从系统效率和模型效果角度持续优化内容提取算法,迭代生产标准。 2)设计预训练数据的全局质量优化和治理方案,优化全局采样策略、隐私保护和安全合规,提升基座模型训练效率和最终效果。 3)建设多模态交错数据处理链路,通过数据分析和配比实验等手段优化多模态数据质量和多样性,支撑多模态大模型数据需求。 4)推动数据驱动的模型性能突破。 5)负责千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。
研究方向一:基于生成式推荐的CTR预估新范式 该方向研究在生成式推荐架构下,如何发挥算力优势,重构当前搜推排序架构体系,实现有限资源下累计收益最大化。关键问题如下: 1.在训练、推理上发挥生成式架构算力优势:针对超长用户行为序列探索生成式架构下Scaling Law,基于美团LBS特点高效捕捉用户兴趣。 2.建设全场景生成式推荐算法:基于超大算力的生成式架构,建设多业务线统一排序算法;采用预训练+SFT、KV Cache等技术,建设多业务下统一的训练、推理服务架构。 3.全链路端到端统一建模:利用生成式架构优点统筹多阶段漏斗,彻底改变当前繁重的多阶段迭代模式,建设出既能互相协同与配合、且目标又充分一致的新算法链路。 研究方向二:面向即时零售场景的大模型驱动用户兴趣建模与场景化推荐方法研究 随着大语言模型(LLM)在自然语言处理、知识推理等领域的广泛应用,如何将其与零售业务深度融合,提升即时零售场景下的用户兴趣理解与个性化推荐水平,成为智能推荐领域的重要研究方向。本课题旨在突破传统推荐系统对用户兴趣建模的局限,充分挖掘大模型的语义理解、知识推理与泛化能力,推动零售行业智能化升级。关键问题如下: 1.探索并实现大模型与零售业务领域知识的高效融合机制,系统评估监督微调(SFT)、检索增强生成(RAG)等多种集成方案在场景化推荐中的适用性与性能表现。 2.构建面向即时零售场景的用户兴趣建模体系,利用大模型对用户行为、商品属性、场景上下文等多维数据进行深度语义建模,提升用户兴趣刻画的准确性与动态性。 3.研发场景化推荐推理框架,基于大模型的推理能力,实现对用户个性化需求的精准预测与推荐,显著提升即时零售平台的用户体验和转化效率。
探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1)设计更高效的模型结构,提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等。 3)研究模型结构和数据的耦合关系,优化分阶段训练范式。 4)结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。
本课题专注于大规模预训练场景下,分布式系统架构优化前沿技术探索。通过软硬件协同设计和算法工程联合优化,降低大规模预训练的成本和迭代周期。 研究内容包括但不限于:1)多维并行架构的优化,如流水线并行(PP)、张量并行(TP)、数据并行(DP)等并行架构在特定硬件、模型架构下的联合优化。 2)MoE 模型结构和训练工程架构的联合优化探索,如大量小专家场景的训练结构优化。 3)联合算法工程师深入合作,进行Attention机制的训练策略和架构优化探索,如线性注意力、稀疏注意力等,提升超长序列建模效果和训练效率。 4)优化多芯片架构、异地多机房环境下的异构训练系统,解锁大规模训练上推的单地域机房容量和电力限制。 5)FP8、FP4 等低精度浮点数下的训练策略和训练性能优化探索。