logo of meituan

美团【北斗】大模型Infra工程师(训练/推理优化)

校招全职核心本地商业-业务研发平台地点:北京 | 上海状态:招聘

任职要求


1.具备良好的计算机基础素养和分析解决问题的能力,熟练掌握C++Python;
2.学习能力强,对机器学习系统优化有技术热情,富有极客精神;
3.熟悉常见机器学习深度学习算法,熟悉TensorFlow/PyTorch等深度框架代码的优先;
4.熟悉GPU、NPU硬件架构,熟练使用CUDA,NCCL,RDMA编程的优先;
5.有分布式系统、高性能计算实际项目经验的优先;
6.在OSDI、SOSP、NSDI、MLSys等会议或期刊中有论文发表者优先;
7.有开源项目(如vLLM/SGLang/Megatron/verl等)贡献代码者优先。
岗位亮点:
1.支撑美团所有核心业务的搜索推荐环节,受关注度高;
2.当前美团核心的GPU落地场景之一,和团队一起探索学习异构计算领域的前沿技术,个人成长快;
3.有机会发表高水平学术论文,或者对知名开源项目做贡献。

工作职责


研究方向一:大模型分布式后训练技术
1.样本IO吞吐优化:使用多线程读取、数据管道流水线编排、数据压缩等技术,实现分布式环境下高性能的样本IO pipeline;
2.计算图编译与高效执行:通过图编译、Kernel优化、算子融合等手段,提升计算图的执行效率;
3.高性能并行训练:包括DP/TP/PP/SP/CP/EP等并行策略及其他训练超参数的自动寻优,故障自动恢复,弹性计算等;
4.强化学习训练效率优化:通过rollout速度优化、多模型多阶段流水线编排、负载均衡等手段优化RL训练效率。
研究方向二:大模型推理加速技术
1.负责实现和优化大模型在线推理系统,提升推理性能,包括不限于:架构设计、算子开发、通信优化等;
2.研究并实现各种模型推理加速手段如并行策略(DP/TP/PP/EP/CP)、混合精度、MOE、FP8等技术,加速模型推理速度; 
3.设计和开发高效的离线、在线推理系统,优化SGLang、vLLM等推理框架,加速整体推理性能; 
4.关注跟进最新的AI Infra进展,并高效的将最新的技术应用到实际业务中。
包括英文材料
C+++
Python+
机器学习+
深度学习+
算法+
TensorFlow+
PyTorch+
CUDA+
分布式系统+
vLLM+
Megatron+
SGLang+
相关职位

logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23
logo of meituan
校招自动车配送部

自动驾驶算法基础服务团队寻找顶尖人才,解决自动驾驶算法面向未来的架构设计和工程优化的综合性问题 研究方向一:分布式训练系统研究 1.探索现有自动驾驶训练业务的算力效率极限,通过底层硬件和分布式集群/存储优化,结合深度学习框架特性和极致算子性能优化,达到MFU上限。 2.进一步建设自动驾驶模型在千卡规模集群上的训练能力,推动从底层数据存储、分布式通信、自动容灾和大规模分布式训练系统的迭代更新,支持业务未来的训练需求。 研究方向二:自动驾驶算法基础研究 1.探索自动驾驶算法在训练优化器,高价值数据获取等基础方向的研究,提升跨业务的模型训练能力。 2.与各个算法业务合作,探索自动驾驶领域算力友好的网络结构范式。

更新于 2025-05-23
logo of meituan
实习自动车配送部

基于数据驱动模型端到端一体化的长期需求,我们寻找有极强的技术信仰与热情,富有好奇心和驱动力的候选人。参与探索自动驾驶面向未来的算法设计和工程优化的综合性问题。 1.探究自动驾驶领域分布式训练的效率极限,通过底层硬件和分布式集群/存储优化,结合深度学习框架特性和极致算子性能优化,达到MFU上限。 2.基于VLM、LLM等大模型技术和无人配送的业务特点,探索自动驾驶新一代的模型结构范式,推动自动驾驶技术的进一步发展。

更新于 2025-04-22
logo of meituan
校招核心本地商业-基

基础算法研究 一、推理思考 1.开发链式思考、思维树等推理增强技术,优化模型对复杂业务逻辑推理、策略规划等任务的深度理解。 2.探索通过大规模强化学习持续提升模型推理能力。 3. 构建业务逻辑推理评测基准,推动模型思维链的可解释性研究。 二、多模态端到端 1.研发语音-文本跨模态对齐与联合表示学习算法,解决语义鸿沟问题,提升模型对语音指令理解、语音到文本生成的鲁棒性。 2.探索语音交互场景下的多模态增强技术(如语音情感分析、端到端语音对话生成),推动模型在智能客服、语音助手的应用落地。 三、生活服务领域增强 1.大模型基座知识能力增强,打造生活服务领域基座,赋能美团各类大模型应用场景; 2.探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强; 3.建设生活服务chat模型与智能体,通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力。 应用算法研究 一、深度推理、规划与决策能力强化 1.优化大模型在逻辑推理、多步规划、复杂决策、多轮多步工具调用等任务上的表现,探索如RL scaling、Test-time scaling等前沿技术。 2.构建能够处理模糊与不完全信息、进行自主假设与验证的推理框架。赋能大模型实现精准的工具调用与智能体协同。 二、高度拟人化交互与专业沟通能力构建 1.赋予模型深度理解与分析专业领域问题的能力,包括隐性需求挖掘和复杂语境下的语义理解。 2.探索多轮对话中的上下文记忆、情绪感知、共情表达与高情商交互技巧,实现稳定人设、知识遵循与高度自然的对话风格。 3.研究模型主动感知用户全面信息、进行预判性服务与信息推送的策略,而非被动响应,打造能真正吸引用户持续对话的自主交互。 三、多智能体协作研发范式与前沿技术应用 1.设计和研究多智能体间的动态协调、知识/记忆共享与冲突解决机制,实现“1+1>>2”的协同效应。 2.推动面向智能体的大模型研发新范式,探索大模型智能体在环境感知、记忆与知识库管理、复杂指令遵循等基础能力的统一建模与提升路径。 四、基于强化学习的智能体优化方法研究 1.研究和改进现有的强化学习算法,实现端到端Agent性能优化,提升Agent鲁棒性与泛化能力。 2.构建面向领域任务的DeepResearch能力,提升Agent在多步骤信息检索、工具调用、推理规划等任务中的表现。

更新于 2025-05-23