美团【北斗】大模型算法研究员(RL/推理/RAG/多模态技术)
任职要求
1.优秀的探索与创新能力,在ACL/EMNLP/NAACL/NeurIPS/ICML/ICLR等顶级会议上发表论文者优先; 2.扎实的算法功底,在ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先; 3.有较强的自驱力和良好的动手实践能力,对新事物有强烈的好奇心。 岗位亮点: 1.核心的业务场景:围绕百万骑手工作场景,充足的数据和计算资源,勇担社会责任,秉承“让骑手工作得更好”使命,让每位骑手享受科技红利。 2.全方位技术挑战:服务于百万骑手的复杂场景,对AIGC技术纵深提出深刻要求,从知识注入到垂域模型训练,从多模态到Agent智能体,均是我们要攀登的高峰。 3.健全的培养体系:全方位Mentor机制,保障技术能力与业务能力全面提升,深度参与行业课题的探索与攻坚。 4.扎实的团队实力:发表多篇顶会论文、“技术突破”获奖团队、多项高校合作课题,团队氛围简单纯粹,丰富的内外部交流机会。
工作职责
研究方向一:垂域LLM研究与构建 1.基座模型架构设计与优化:参与大语言模型基座架构的设计,研究前沿技术,如稀疏激活、混合精度训练等,同时优化模型的训练和推理流程。 2.技术创新与突破:参与前沿技术研究,如多任务学习、跨模态理解等,推动模型在复杂任务上的性能提升;探索Transformer替代架构,突破现有模型scaling law限制;同时挑战学术benchmark,为模型的性能树立新的行业标杆。 3.强化学习算法研究:参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。 4.垂域模型定制化构建:领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。 5.跨部门协作与落地:与公司数据科学家、算法工程师、产品团队紧密合作,将研究成果快速转化为实际应用,推动大语言模型在更多场景的落地。 研究方向二:垂域MLLM研究与构建 1.研究多模态表征与大语言模型融合的前沿技术,设计和实现创新算法,研究异质数据的统一编解码模型,适配多种模态下的特征统一,实现高效微调与优化。 2.探索强化学习(RL)在多模态大模型中的应用,包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化,提升多模态理解与推理能力。 3.持续追踪多模态与强化学习结合的最新研究进展,优化现有多模态系统架构,提升性能、效率与可扩展性,推动多模态强化学习在智能体交互、决策推理等任务中的应用。 4.构建技术评估体系,通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用,提升多模态大模型的泛化能力和实际应用价值。 研究方向三:基于角色扮演的虚拟数字助理 1. 角色扮演技术(Role-Playing):通过模型优化、Agent构建,在人设、拟人性、情感等取得显著提升。 2. 记忆管理与增强(Memory):通过模型长上下文,记忆抽取与管理,提升系统的记忆能力。 3. 个性化技术:通过用户行为数据挖掘与建模,结合多轮对话上下文理解,分析用户情感状态,提升模型的个性化回复能力。 4. 基于Agent的数字助理:通过Agent构建和基于RL的优化,实现数字助理的能力复刻和增强
1.探索生成式模型的高级推理发生机制,提升大模型在复杂任务上的推理表现。包括但不限于RL scaling、Test time scaling等; 2.探索模型通过使用工具扩展能力边界,同复杂环境交互持续提升模型智能水平; 3.超大规模模型的强化学习性能优化,通过算法/工程的联合优化,极致加速模型训练和推理。
通用Agent方向: 1.探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力,包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力; 2.探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式,包括 Proactive Agent 的建模方案; 3.探索研究更多内在奖励的机制,从而激发模型主动学习和自我更新的能力; 4.探索构建长期记忆机制,为下一代高效的推理模型、长序列推理及建模提供基础。 搜索Agent方向: 1.参与通用AI搜索中Agent的框架建设和算法优化,并能在实际业务场景进行落地; 2.探索指令微调、偏好对齐(RLHF/DPO)和LLM Reasoning(如思维链、多步推理)在AI搜索场景的应用,特别是提升复杂搜索能力(如Deep Research); 3.构建端到端Agent优化系统,将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化,探索大模型AI搜索Agent的智能上限; 4.研究AI搜索Agent的自动评测标准和方法,构建公平、合理并且全面的评测系统加速Agent迭代; 5.跟踪大模型和搜索最前沿的技术,包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索。 安全方向: 1.负责LLM、VLM通用大模型与垂类大模型的内容安全研发,提升模型识别风险、规避风险、处置风险的能力。 2.负责通过定性、定量方法评估策略表现,进行策略迭代更新,不断提升内容安全效果。 3.深度参与大模型、安全、算法等领域的调研,结合通用模型的新技术、新场景,如LongCoT、Agent、GUI,积极探索相应新技术、新场景上,安全方案的创新和落地。
美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于: 1.构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等; 2.结合模型训练过程和评测结果,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等; 3.探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破,包括异步交互、记忆管理、自主学习、具身智能等。 本岗位涉及的模型及方向包括: 1.面向下一代文本模型的评测与探索,包括但不限于:完善推理系模型的评测框架,引入推理效率相关的评测指标等。 2.面向多模理解与生成能力评测与探索,包括但不限于:全模态及跨模态交互能力,世界模型与具身智能能力。 3.面向模型Agent能力的评测与探索,包括但不限于:模型的任务规划、工具使用、环境反馈、自主决策等通用Agent能力,及Computer Use、Code Agent、通用搜索等产品级Agent方向。 4.长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。