logo of meituan

美团【北斗】基座大模型算法研究员(数据与训练/后训练)

校招全职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1.扎实的算法功底,熟悉自然语言处理机器学习技术,对大模型和AGI有信仰;
2.熟悉Python/Java等编程语言,动手能力强,ACM/ICPC、NOI/IOI等比赛获奖者优先;
3.熟悉PyTorch/Megtron/Huggingface/Triton/vLLM/SGLang等框架并有实际项目经验;
4.熟悉Transformer/BERT/GPT等主流模型结构;
5.在领域内顶级会议或期刊发表过高水平论文,主导或参与过有影响力的开源项目,在权威评测或比赛中取得优秀名次者优先;
6.良好的沟通协作能力,能和团队成员高效协同,推进技术进步。

岗位亮点:
1.团队人才密度高,近两年入职员工大部分为“北斗计划”员工和博士员工,在ICLRNeurIPSICML、ACL等顶会累计发表论文50余篇,斩获EMNLP outstanding paper、吴文俊人工智能奖科技进步奖、CCF科技成果奖等荣誉激励。
2.鼓励跨团队和跨方向合作,在快速发展的大模型领域建立专长,成为大模型领域的技术专家。
数据与训练方向
1.参与大模型核心技术Scaling Law和数据基础理论的研发和应用,接触前沿技术领域,获得在业界顶级规模模型上进行数据策略创新的宝贵经验。
2.参与全栈数据全流程,参与构建下一代融合文本、图像、音频的数据处理体系,参与构建AI自主生成训练数据的创新范式。
后训练方向
1.参与大模型后训练关键技术研发,接触指令微调、强化学习等前沿AI训练技术。
2.探索大模型能力边界拓展,研究创意生成、复杂推理等突破性能力,推动AI认知水平跃升。
3.参与前沿强化学习技术探索,接触多智能体协同进化、模型自进化等创新方向。
4.参与Test-time Compute创新,探索动态推理优化的新范式,突破传统AI计算边界。

工作职责


数据与训练方向:
1.大模型数据体系建设:构建多语言和多模态的数据处理流程和实验链路,优化数据的筛选与配比策略,探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性,优化大模型的训练效果。
2.合成数据探索:探索大规模合成数据方法,应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略,并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题,推动数据驱动的性能突破。
3.多模态学习与推理:探索多模态预训练的新范式,突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模,研究多模态扩展定律以指导数据与训练方案,扩展超长上下文机制以支持全模态场景等。同时,面向复杂的多模态推理与交互场景,探索多模态强化学习、多模态奖励模型、推理阶段扩展(test-time scaling)以及全模态链式思维(CoT)等方法,提升模型处理复杂任务和全模态交互的能力。
4.高效模型架构设计:设计高效的大模型架构以提升训练和推理效率。探索 MoE(混合专家)、稀疏注意力、线性注意力等高效模型结构,以及模型编辑与合并等技术,研发能够显著提升推理速度和资源利用率的新型模型架构。
5.推理效率与性能优化:推动算法与系统的协同优化,实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘,开发高效的模型推理方案和算法,包括模型压缩、剪枝、量化、稀疏化等,降低模型应用部署成本。

后训练方向:
1.后训练数据与流程建设,从指令数据生产、合成、进化、配比等方面提升数据质量,优化指令微调、强化学习、奖励模型等训练pipeline,提升模型综合能力;
2.后训练关键能力建设,包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性,拓展模型能力边界;
3.面向准确性、多模信息、最优路径等方向,探索奖励模型的新范式,构建统一模型学习环境,实现模型的价值对齐和能力对齐;
4.面向推理规划能力、多智能体系统、模型自进化等方向,探索下一代强化学习算法,持续提升大模型的智能水平和在真实复杂场景效果;
5.前沿探索:动态推理计算优化(Test-time Compute Optimization)、多智能体协同进化架构 、大规模强化学习系统优化等。
包括英文材料
算法+
NLP+
机器学习+
大模型+
Python+
Java+
PyTorch+
vLLM+
Transformer+
BERT+
GPT+
NeurIPS+
ICML+
强化学习+
相关职位

logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

通用Agent方向: 1.探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力,包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力; 2.探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式,包括 Proactive Agent 的建模方案; 3.探索研究更多内在奖励的机制,从而激发模型主动学习和自我更新的能力; 4.探索构建长期记忆机制,为下一代高效的推理模型、长序列推理及建模提供基础。 搜索Agent方向: 1.参与通用AI搜索中Agent的框架建设和算法优化,并能在实际业务场景进行落地; 2.探索指令微调、偏好对齐(RLHF/DPO)和LLM Reasoning(如思维链、多步推理)在AI搜索场景的应用,特别是提升复杂搜索能力(如Deep Research); 3.构建端到端Agent优化系统,将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化,探索大模型AI搜索Agent的智能上限; 4.研究AI搜索Agent的自动评测标准和方法,构建公平、合理并且全面的评测系统加速Agent迭代; 5.跟踪大模型和搜索最前沿的技术,包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索。 安全方向: 1.负责LLM、VLM通用大模型与垂类大模型的内容安全研发,提升模型识别风险、规避风险、处置风险的能力。 2.负责通过定性、定量方法评估策略表现,进行策略迭代更新,不断提升内容安全效果。 3.深度参与大模型、安全、算法等领域的调研,结合通用模型的新技术、新场景,如LongCoT、Agent、GUI,积极探索相应新技术、新场景上,安全方案的创新和落地。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。

更新于 2025-05-23
logo of meituan
校招核心本地商业-业

研究方向一:垂域LLM研究与构建​ 1.基座模型架构设计与优化:参与大语言模型基座架构的设计,研究前沿技术,如稀疏激活、混合精度训练等,同时优化模型的训练和推理流程。​ 2.技术创新与突破:参与前沿技术研究,如多任务学习、跨模态理解等,推动模型在复杂任务上的性能提升;探索Transformer替代架构,突破现有模型scaling law限制;同时挑战学术benchmark,为模型的性能树立新的行业标杆。​ 3.强化学习算法研究:参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。​ 4.垂域模型定制化构建:领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。​ 5.跨部门协作与落地:与公司数据科学家、算法工程师、产品团队紧密合作,将研究成果快速转化为实际应用,推动大语言模型在更多场景的落地。​​ 研究方向二:垂域MLLM研究与构建​ ​1.研究多模态表征与大语言模型融合的前沿技术,设计和实现创新算法,研究异质数据的统一编解码模型,适配多种模态下的特征统一,实现高效微调与优化。​ 2.探索强化学习(RL)在多模态大模型中的应用,包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化,提升多模态理解与推理能力。 ​3.持续追踪多模态与强化学习结合的最新研究进展,优化现有多模态系统架构,提升性能、效率与可扩展性,推动多模态强化学习在智能体交互、决策推理等任务中的应用。 ​4.构建技术评估体系,通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用,提升多模态大模型的泛化能力和实际应用价值。​​ 研究方向三:基于角色扮演的虚拟数字助理 ​​1. 角色扮演技术(Role-Playing):通过模型优化、Agent构建,在人设、拟人性、情感等取得显著提升。 ​2. 记忆管理与增强(Memory):通过模型长上下文,记忆抽取与管理,提升系统的记忆能力。 ​3. 个性化技术:通过用户行为数据挖掘与建模,结合多轮对话上下文理解,分析用户情感状态,提升模型的个性化回复能力。 ​4. 基于Agent的数字助理:通过Agent构建和基于RL的优化,实现数字助理的能力复刻和增强

更新于 2025-05-23