美团基座大模型高阶算法/工程
任职要求
1. 对CV、NLP、多模态等相关领域有深入的理解,在其中一个或多个方向有深入的研究经历,且有相关实际项目经验。
2. 对…工作职责
1. 从flops efficiency角度,对大模型预训练过程进行分析与探索,包括不限于对scaling law的研究,数据的认知实验,MoE等模型架构设计,以及其他工程与算法结合的ml sys相关优化等。 2. 负责原生多模态大模型的构建与预训练,包括各模态分词器设计,合成数据策略,以及跨模态融合训练策略等,提升原生多模态模型在视觉/语音的理解与生成任务上的能力。 3. 进行大模型reasoning能力的相关研究,研究pre-train / test-time compute对于模型推理能力的影响,借助SFT / DPO / self-play等手段,提高模型在代码数学等推理任务上的表现。 4. 通过post-training激发模型在各下游任务上的能力,从而构建具有通用问题解决能力的agent。
我们相信,通向更高阶智能的路径不止于更大的 LLM。 Post-Training 正在成为模型能力跃迁的关键阶段:从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与 多模态、强化学习、自进化 Agent 系统 等前沿方向,探索超越纯预训练范式的新能力边界,构建可持续学习、可记忆、可进化的智能系统。 1. Post-Training 核心研究与系统构建 设计并实现面向 推理能力、策略优化和长期表现 的后训练方法 探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法 将 Post-Training 视为 系统级优化问题,而非单次调参或 reward hacking 2. 强化学习与持续进化机制 设计基于试错和反馈的训练闭环(例如,Natural Language FeedBack),使模型具备自我修正和能力生长 探索 RL 在 边缘能力、长尾任务、工具使用和复杂决策 中的作用 研究长期学习(Lifelong Learning)、稳定性、遗忘控制等关键问题 3. 多模态与“世界建模” 参与多模态模型(尤其是视频、时序感知)的 Post-Training 研究 探索从“语言建模”走向“世界建模”的训练目标与评估方式 研究感知、行动与决策的联合优化,而非简单模态拼接 4. Agent 与自进化系统 构建“可训练的 Agent 系统”,而不仅是工具调用的外壳 设计 Agent 的记忆、学习、反思与策略更新机制 将 Agent 视为一个 持续演化的产品级智能体 5. 新范式与新架构探索 对现有 Attention、NTP 等范式保持批判性思考,例如探索全新的 探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性 参与从模型 → 推理过程 → 自学习环境(System-level Scaling)的演进
1.负责大语言模型(LLM)规划、推理、反思能力的研究,提升大语言模型的高阶推理能力; 2.跟进推理领域的前沿技术,将其应用于混元大模型基座,持续提升大模型的推理能力。

1. 负责Soul社交垂域多模态基座大模型的研发和应用支撑,作为基座支持包括但不限于 多模态理解、多模态生成、多模态对话、实时双工音视频通话、多Agent对话、aigc内容供给、大模型推荐、内容理解、大模型安全等的技术探索 2. 负责Soul个性化大模型的研发,做到面向用户偏好建模的千人千面大模型,从而更适配Soul AI业务落地场景,提升业务落地效率 3. 协助建设AI中台+数据体系,沉淀技术和数据资产,赋能公司AI相关业务
1. 基座大模型预训练,包括但不限于不同规模、不同结构的语言模型和多模态模型的数据准备和优化、模型预训练、训练加速与框架优化等; 2. 大模型对齐技术(SFT、RLHF等)链路整体优化,包括数据探索与增强、对齐流程探索、奖励模型优化、强化学习策略迭代等,持续提升对齐效果; 3. 大模型训练和推理优化,包括但不限于高效训练技术和框架设计与实现、模型小型化技术(稀疏化、压缩、剪枝、蒸馏等)探索与落地、高效推理技术实现等; 4. 大模型相关技术前沿探索,包括但不限于Scaling Law、模型架构探索(MoE、MAMBA等)、训练范式探索、长序列技术探索、高效训推框架探索等; 5. 支撑内部应用需求,对接搜索、推荐、广告等实际业务场景,实现大模型应用落地。