美团【基座大模型北斗实习】CodeAgent 后训练方向
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1、有好奇心,敢想敢做,学习能力强,能在复杂问题的深度思考与拆解能力; 2、在 Agentic RL、过程奖励(PRM)或复杂代码推理等方向有深入研…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
简介:不再是单纯的代码生成,你将直面当前大模型最薄弱的环节——对复杂表格(Table)与混合文本的深度理解,以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training,致力于突破数值处理天花板,赋予机器像顶尖数据科学家一样的洞察力。 【核心探索】 1、异构数据理解与数值推理: 突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据(如百万级复杂 CSV/Excel 结构)的表征优化与微调,大幅提升模型对数值规律的敏感度与跨表关联推理能力。 2、Agentic RL 与数据环境交互: 摒弃传统 RLHF,构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中,实现代码编写与数据清洗能力的自我进化。 3、复杂推理与过程奖励(PRM): 针对多步业务分析任务,构建细粒度的过程奖励模型。研究 Test-Time Compute 策略,引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错,拉升逻辑推理天花板。
包括英文材料
ACL+
https://www.aclweb.org/portal/
Computational linguistics is the scientific study of language from a computational perspective.
EMNLP+
还有更多 •••