logo of meituan

美团【北斗】智能决策算法研究员(外卖/即时零售-智能调度)

校招全职核心本地商业-业务研发平台地点:北京状态:招聘

任职要求


海内外高校硕士生及博士生,且以下条件至少满足一项:
1)超级学霸:专业成绩排名前1%。
2)学术达人:在顶级期刊或学术会议上以第一作者身份发表多篇论文(或导师一作,自己为二作)。
3)竞赛大神:在顶级大赛上获奖。
4)工程高手:有大厂实验室的实习经验,或有贡献突出的开源项目。

岗位亮点:
1.基于承接全球最大规模外卖业务的即时配送系统进行最前沿的端到端调度决策研究,业务影响力与研究深度并重;
2.接触最前沿的调度决策体系,服务于百万级骑手、千万级订单,快速拓宽技术、业务视野;
3.团队氛围好、博士比例高、研究实力强,已发表多篇顶会论文,团队工作入选2023年Franz Edelman奖(全球运筹和管理科学界的最高工业应用奖,被广泛誉为工业工程界的“诺贝尔奖”),在行业内具有国际领先水平。

工作职责


调度决策模型探索
1.针对调度系统内多样的调度决策行为进行分析,包括但不限于过滤、压单、指派、推荐、改派等,尝试基于模仿学习、强化学习等方法对已有的调度决策行为进行端到端建模,提升调度效果。
2.针对调度系统分城市、分业务、分时段的差异化特点,探索场景化适配的模型预测、决策能力,提升调度决策系统在不同场景下的适配能力。
3. 基于订单结构挖掘与优质骑手行为学习,实现多对一订单-骑手匹配问题的分布式实时(秒级)求解,同时合理刻画订单匹配长周期收益,实现调度匹配序贯决策时空全局优化,将日益增长的订单密度,在性能约束下极大程度兑现为骑手效率增益。
包括英文材料
相关职位

logo of meituan
校招核心本地商业-业

研究方向一:多决策变量联合因果效应建模 该方向建模和评估多维单一干预动作或多干预动作的联合因果效应。关键问题点如下: 1.识别多干预动作、单干预动作多维间是否存在相互作用,并解决高维混杂空间投影问题,量化这些相互作用的影响。 2.解决交叉混杂效应等难题,建立多干预动作、多干预维度的联合分布模型,量化预估共同作用时的联合因果效应。 3.预估用户/群体粒度的多干预动作因果效应,并提供直观解释,帮助决策者理解更好的制定有效策略。 研究方向二:基于强化学习的序列化因果建模和决策 该方向研究特定业务场景下,通过序列化的干预动作设计,实现有限资源下的累积收益最大化。关键问题如下: 1.建立连续决策因果归因能力:准确估计在前置treatment序列下,当前干预动作选择的用户个性化因果效应。 2.基于强化学习的序列化决策:基于因果效应的预估,运用强化学习技术做出本次干预动作的最优化决策;学习干预顺序和时间间隔对结果的影响,优化组合干预策略以达到最佳的结果。 3.延迟因果效应建模:干预动作的影响可能不会立即显现,如何表征延迟效应、建模长程因果传导效应,并基于对未来流量或用户行为的预估,做出前瞻性的决策。 研究方向三:基于LLM的用户意图识别和营销增长机会点发现 该方向研究如何充分利用LLM的序列推理能力,基于用户行为序列实时识别用户意图和营销增长机会点。关键问题如下: 1.潜在意图识别:构建显性→潜在→衍生的意图金字塔模型和多层级attention机制,增强隐式关系捕捉能力,提升意图识别覆盖率。 2.提升意图识别准确率:系统性构建高质量意图数据集,合理应用RAG技术,建设RLHF和对抗性数据增强能力。 3.提升意图可解释性:解决用户表层表达与深层需求间的语义断层,融入因果推理模块、构建反事实注意力机制。 研究方向四:观测样本与RCT样本的消偏融合研究 样本消融研究主要关注如何结合不同来源的数据改善因果推断的准确性和可靠性。关键问题如下: 1.如何识别和消除观测数据中的混淆偏差,如何识别同时影响treatment和结果的混杂因素。 2.如何针对业务场景和数据集特点,选择合适的消偏算法,消除观测数据中的选择偏差和控制RCT数据的归纳偏差。 3.如何有效地融合RCT和观测数据,以利用两者的优势并克服各自的限制,有效降低方差的同时尽可能得到无偏估计。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23
logo of meituan
校招核心本地商业-业

研究方向一:垂域LLM研究与构建​ 1.基座模型架构设计与优化:参与大语言模型基座架构的设计,研究前沿技术,如稀疏激活、混合精度训练等,同时优化模型的训练和推理流程。​ 2.技术创新与突破:参与前沿技术研究,如多任务学习、跨模态理解等,推动模型在复杂任务上的性能提升;探索Transformer替代架构,突破现有模型scaling law限制;同时挑战学术benchmark,为模型的性能树立新的行业标杆。​ 3.强化学习算法研究:参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。​ 4.垂域模型定制化构建:领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。​ 5.跨部门协作与落地:与公司数据科学家、算法工程师、产品团队紧密合作,将研究成果快速转化为实际应用,推动大语言模型在更多场景的落地。​​ 研究方向二:垂域MLLM研究与构建​ ​1.研究多模态表征与大语言模型融合的前沿技术,设计和实现创新算法,研究异质数据的统一编解码模型,适配多种模态下的特征统一,实现高效微调与优化。​ 2.探索强化学习(RL)在多模态大模型中的应用,包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化,提升多模态理解与推理能力。 ​3.持续追踪多模态与强化学习结合的最新研究进展,优化现有多模态系统架构,提升性能、效率与可扩展性,推动多模态强化学习在智能体交互、决策推理等任务中的应用。 ​4.构建技术评估体系,通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用,提升多模态大模型的泛化能力和实际应用价值。​​ 研究方向三:基于角色扮演的虚拟数字助理 ​​1. 角色扮演技术(Role-Playing):通过模型优化、Agent构建,在人设、拟人性、情感等取得显著提升。 ​2. 记忆管理与增强(Memory):通过模型长上下文,记忆抽取与管理,提升系统的记忆能力。 ​3. 个性化技术:通过用户行为数据挖掘与建模,结合多轮对话上下文理解,分析用户情感状态,提升模型的个性化回复能力。 ​4. 基于Agent的数字助理:通过Agent构建和基于RL的优化,实现数字助理的能力复刻和增强

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于: 1.构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等; 2.结合模型训练过程和评测结果,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等; 3.探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破,包括异步交互、记忆管理、自主学习、具身智能等。 本岗位涉及的模型及方向包括: 1.面向下一代文本模型的评测与探索,包括但不限于:完善推理系模型的评测框架,引入推理效率相关的评测指标等。 2.面向多模理解与生成能力评测与探索,包括但不限于:全模态及跨模态交互能力,世界模型与具身智能能力。 3.面向模型Agent能力的评测与探索,包括但不限于:模型的任务规划、工具使用、环境反馈、自主决策等通用Agent能力,及Computer Use、Code Agent、通用搜索等产品级Agent方向。 4.长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2025-05-23