logo of meituan

美团【基座大模型北斗实习】CodeAgent 后训练方向

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、有好奇心,敢想敢做,学习能力强,能在复杂问题的深度思考与拆解能力;
2、在 Agentic RL、过程奖励(PRM)或复杂代码推理等方向有深入研…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:不再是单纯的代码生成,你将直面当前大模型最薄弱的环节——对复杂表格(Table)与混合文本的深度理解,以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training,致力于突破数值处理天花板,赋予机器像顶尖数据科学家一样的洞察力。

【核心探索】
1、异构数据理解与数值推理: 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据(如百万级复杂 CSV/Excel 结构)的表征优化与微调,大幅提升模型对数值规律的敏感度与跨表关联推理能力。
2、Agentic RL 与数据环境交互: 摒弃传统 RLHF,构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中,实现代码编写与数据清洗能力的自我进化。
3、复杂推理与过程奖励(PRM): 针对多步业务分析任务,构建细粒度的过程奖励模型。研究 Test-Time Compute 策略,引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错,拉升逻辑推理天花板。
包括英文材料
ACL+
EMNLP+
还有更多 •••