美团【基座大模型北斗实习】CodeAgent 后训练方向

实习兼职核心本地商业-基础研发平台2026-04-03地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、有好奇心，敢想敢做，学习能力强，能在复杂问题的深度思考与拆解能力；
2、在 Agentic RL、过程奖励（PRM）或复杂代码推理等方向有深入研…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

简介：不再是单纯的代码生成，你将直面当前大模型最薄弱的环节——对复杂表格（Table）与混合文本的深度理解，以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training，致力于突破数值处理天花板，赋予机器像顶尖数据科学家一样的洞察力。

【核心探索】
1、异构数据理解与数值推理： 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据（如百万级复杂 CSV/Excel 结构）的表征优化与微调，大幅提升模型对数值规律的敏感度与跨表关联推理能力。
2、Agentic RL 与数据环境交互： 摒弃传统 RLHF，构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中，实现代码编写与数据清洗能力的自我进化。
3、复杂推理与过程奖励（PRM）： 针对多步业务分析任务，构建细粒度的过程奖励模型。研究 Test-Time Compute 策略，引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错，拉升逻辑推理天花板。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

ACL+

EMNLP+

还有更多 •••

登录查看完整学习资料