腾讯大模型Code/Agent后训练算法研究员-(深圳)or(北京)or

社招全职2年以上微信支付技术2026-06-10地点：上海状态：招聘

扫码手机上打开

任职要求

1.计算机、人工智能等相关专业硕士以上学历；
2.有大规模强化学习、大模型Code/Agent研发相关经验者优先；
3.具有扎实的深度学习算法基础，熟悉深度学习框架和分布式训练推理加…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责Code和Agent相关数据构建与治理，构建高质量、多样化的Code/Agent训练数据集，搭建数据迭代闭环，通过数据飞轮持续优化数据质量；
2.负责Agent运行环境与训练环境的构建与优化，构建高可用、可扩展的Agent仿真环境，保障Agent训练、测试及落地的稳定性与高效性；
3.负责Agentic RL在Code/Agent场景的训练，参与Agentic RL Infra建设及优化、Agentic RL 算法优化，持续提升Agentic RL训练的效率和稳定性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】CodeAgent 后训练方向

实习核心本地商业-基

简介：不再是单纯的代码生成，你将直面当前大模型最薄弱的环节——对复杂表格（Table）与混合文本的深度理解，以及海量数值的精准逻辑推理。本方向聚焦于基座模型的 Post-training，致力于突破数值处理天花板，赋予机器像顶尖数据科学家一样的洞察力。【核心探索】 1、异构数据理解与数值推理：突破大模型在 Table + 文本混合形态下的信息丢失与幻觉瓶颈。探索基于真实商业数据（如百万级复杂 CSV/Excel 结构）的表征优化与微调，大幅提升模型对数值规律的敏感度与跨表关联推理能力。 2、Agentic RL 与数据环境交互：摒弃传统 RLHF，构建基于“代码执行沙盒”与“真实数据计算结果反馈”的强化学习闭环。让模型在与海量数据的反复试错中，实现代码编写与数据清洗能力的自我进化。 3、复杂推理与过程奖励（PRM）：针对多步业务分析任务，构建细粒度的过程奖励模型。研究 Test-Time Compute 策略，引导智能体在面对极度复杂的数值统计命题时进行 MCTS 搜索与自我纠错，拉升逻辑推理天花板。

更新于 2026-04-03北京|上海

大语言模型Code Agent算法工程师-Seed

社招A182748

1、参与Code Agent方向的大模型算法研发，构建能够理解复杂代码任务、使用开发工具、进行多步推理，并完成真实软件工程任务的智能体系统； 2、提升Code Agent在代码能力、指令遵循、长程任务执行等方向上的核心能力； 3、参与Code Agent的预训练与后训练优化，包括但不限于数据构建、SFT、RL算法、Reward设计，持续提升在真实任务中的问题解决能力、稳定性和泛化能力； 4、构建面向真实软件工程场景的评测体系与数据闭环，包括Benchmark、数据回流和针对性能力优化。

更新于 2026-04-21北京

【提前批-大模型】Code Agentic算法研究员

校招程序&技术类

1、负责面向代码智能体的 Post-training 算法研究与落地，提升模型在真实软件工程任务中的代码理解、任务规划、工具调用、调试修复和多步执行能力。 2、探索 SFT、RLHF、GRPO、OPD 等训练方法，优化模型在代码生成、代码修改、Bug 修复、测试生成、PR Review 等场景中的表现。 3、构建 Code Agentic 训练闭环，包括任务分解、代码库检索、文件编辑、命令执行、测试反馈、错误诊断、反思修复等多轮轨迹数据的建模与优化。 4、负责高质量代码智能体数据建设，包括真实 Issue / PR 数据、Repo-level 任务、Agent 交互轨迹、失败案例、合成任务、执行反馈数据和偏好数据的治理与混合策略。 5、研究面向代码仓库的长上下文与记忆机制，提升模型在大型代码库中的定位、检索、依赖理解、跨文件修改和长期任务保持能力。

北京

大模型数据生产实习生-math&code

实习核心本地商业-基

1. 根据业务需求，生产竞赛级难度的数学/代码训练数据，提升模型推理能力 2. 参与数据合成实验，通过PE、模型微调等手段实现大批量、高质量的数据自动化生成 3. 通过模型效果评估、行业调研、论文解读等方式迭代数据生产方案，协助mentor管理内外部标注资源

更新于 2026-07-21北京|成都