logo of meituan

美团【北斗】大模型算法研究员(Agent/RL/推理)

校招全职核心本地商业-业务研发平台地点:北京状态:招聘

任职要求


【任职资格】
必备条件:
1.2027届计算机、数学、统计等相关专业在读或应届,本科及以上,博士/硕士优先
2.扎实的机器学习深度学习基础,熟悉Transformer架构及其变体,具备独立阅读和复现顶会论文的能力
3.熟练掌握PythonPyTorch/JAX等主流框架,具备清晰的代码工程意识
4.对大模型的训练流程(预训练/后训练)或Agent构建有系统性理解,具备独立完成端到端实验的能力
5.具备RLHF/DPO/GRPO或其他对齐算法的实际训练与调优,对相关数据构建有深度认知
加分项:
1.熟悉ClaudeCode、OpenClaw、Hermes等开源Harness的设计和实现
2.在NeurIPS/ICML/ICLR/ACL/EMNLP等顶会发表过论文(含在投),或有被广泛引用的开源项目
3.有Agent系统(如…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【愿景】
建成全球持续领先、客户长期信赖的履约技术平台,打造市场首选、社会认可、服务10亿用户的配送品牌。

【你将参与】
方向一:Agent技术体系研究与落地
1.设计并构建面向真实业务场景的Agent技术体系,涵盖任务规划、工具调用、多轮推理、自我反思与纠错等核心模块
2.深入抽象业务核心问题,建立可量化的评估反馈信号,驱动Agent在复杂履约场景中实现可度量的效果提升
3.探索Multi-Agent协作框架,研究Agent在千万级并发场景下的可靠性、安全性与成本效率
方向二:LLM后训练算法研究
1.负责面向特定业务场景的指令精调(SFT)、偏好对齐(RLHF/DPO/GRPO等)全链路研究与工程落地
2.研究ScalableOversight、持续学习、AI和环境反馈的强化学习(RLXF)等前沿方向。同时探索奖励模型与反馈机制、可泛化的细粒度过程监督和奖励建模等,提升模型在复杂推理与工具调用任务上的能力上限
3.主导训练数据的质量工程,包括数据清洗、合成数据构建及标注流程设计
4.垂域模型定制化构建,领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向
方向三:评测与数据体系建设
1.设计覆盖Agent行为、模型能力、业务指标的多维评测体系,建立自动化的诊断与归因链路
2.与业务团队深度协作,构建端到端的训练-评估-迭代闭环,将研究成果转化为线上可量化的业务收益
方向四:前沿跟踪与对外输出
1.持续追踪NeurIPS/ICML/ICLR/ACL等顶会最新进展,具备将前沿论文快速工程化落地的能力
2.鼓励将内部研究成果整理为学术论文,向行业输出技术影响力
包括英文材料
机器学习+
深度学习+
Transformer+
Python+
PyTorch+
JAX+
大模型+
AI agent+
RLHF+
还有更多 •••