美团【LongCat大模型人才校招】基础模型 - 数据策略与数据科学
校招全职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1.熟悉 Python 和 PyTorch 等深度学习框架,具备扎实的机器学习、深度学习、概率统计和算法基础。 2.熟悉大语言模型或多模态基础模型训练流程,理解预训练数据、训练动态、模型能力和评估体系之间的关系;有大规模预训练、Data Mixture、合成数据或模型评估经验者优先。 3.对预训练数据有系统性理解,熟悉数据清洗、去重、污染检测、质量评估…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
随着模型架构逐渐收敛、算力成本持续上升,高质量数据策略正在成为提升基座模型 scaling efficiency 和能力上限的核心杠杆。本方向聚焦大规模预训练数据的理解、筛选、配比、合成与系统化迭代,致力于建立数据分布、训练动态与模型能力之间的可解释映射,并将其转化为可预测、可干预、可扩展的数据策略和数据系统,持续提升模型的 token efficiency、scaling efficiency 与智能上限。 工作内容包括但不限于: 1.研究数据来源、质量、多样性、难度、覆盖度与模型能力之间的关系,建立“数据分布—训练动态—模型效果”的分析与归因框架。 2.探索面向预训练的数据价值建模方法,包括自动化质量评估、样本筛选、语义去重、污染检测、覆盖度建模、长序列数据组织与高价值 token 挖掘。 3.研究 Data Mixture、动态配比、课程学习和多阶段训练策略,分析不同类型数据在不同模型规模、训练阶段和能力维度上的边际收益,提升 token efficiency 与 scaling efficiency。 4.探索合成数据、蒸馏数据、模型自生成数据和反馈数据在预训练中的有效使用方式,研究合成数据的有效性、多样性保持、退化机制和训练配比策略。 5.构建可复现、可扩展的大规模数据处理与实验闭环,将数据构建、训练验证、能力评测、数据诊断和策略更新结合起来,形成面向基础模型持续迭代的数据飞轮。 6.研究并缓解预训练数据中的污染、偏差、重复、低质、隐私、安全和合规风险,提升数据策略的可靠性、可控性和可持续性。 【为什么是我们】 1.明确的技术判断:团队在原生多模态方向有非共识的长期投入,已发布 LongCat-Next 技术报告(离散自回归原生多模态),不是跟随式的能力补齐。 2.顶级资源支撑:5~6万卡计算集群,万亿参数文本基座已训练完成,多模态正在进行大规模上推验证——你将直接参与业界最前沿规模的多模态实验。 3.主线与探索并行:既承担多模态基座的核心交付工作,也推进下一代原生多模态架构的前沿探索,覆盖"数据→tokenizer→预训练→后训练→RL"全链路。
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••