腾讯腾讯云CodeBuddy-强化学习算法研究员

社招全职3年以上腾讯云-开发者助手技术2025-11-14地点：深圳状态：招聘

扫码手机上打开

任职要求

1.自然语言处理/机器学习/模式识别/人工智能/计算机等相关专业硕士以上学历；
2.有5年以上的工程编码经验，熟练掌握 Python，C/C++，Golang，Java，JavaScript，TypeScript 等至少一种语言；
3.掌握深度学习基础知识，能根据具体问题做针对性优化，熟悉深度学习中不同任务及相应的主流模型和算…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.作为研究者，探索有效的 Agentic Workflow 和 Agentic Memory 设计来解决代码领域的问题；
2.主要关注比SFT泛化效果更好的强化学习；能结合实际用户需求、产生的用户数据、agent的实现细节，调整训练语料和训练目标；
3.能和agent开发高效沟通，设计memory存取逻辑，并且通过模型训练让模型适配自己设计的agent；
4.作为工程师，考虑到 LLM inference 对推理算力的高消耗，设计出合理的前后端交互，前端架构，后端架构，在有限的推理算力下，做出完整的 Agentic Workflow 解决方案。最好是探索一套通用可扩展的 Agentic Workflow 解决方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

机器学习+

模式识别+

学历+

Python+

C+

C+++

Go+

Java+

JavaScript+

还有更多 •••

登录查看完整学习资料

相关职位

强化学习算法研究员（金融大模型）

校招金融研究类

参与金融领域大模型的设计与优化，特别是在量化投资、风险控制、资产配置等场景下应用强化学习算法（RL）解决实际问题。研究和开发基于强化学习的金融策略，包括但不限于投资组合优化、市场预测、风险管理等关键领域。利用大模型和多模态数据（包括市场数据、新闻数据、社交媒体数据等），开发适应金融市场动态变化的智能决策系统。优化金融场景下强化学习模型的训练与推理效率，探索基于DPO（决策过程优化）与RLHF（强化学习与人类反馈）的创新算法，提升策略的稳定性和适应性。深入研究AI4Finance前沿技术，关注低延迟推理、模型压缩、算法加速等技术的应用，推动金融大模型在实时交易、资产管理等领域的落地。

杭州

蚂蚁集团-蚂蚁技术研究院-大规模强化学习算法与系统研究员

社招3年以上技术类-算法

强化学习是提升大模型推理能力的重要范式。大模型本身参数量大，训练资源消耗高，加上强化学习算法流程复杂，要开发灵活又高效的强化学习系统有诸多挑战，而大规模强化学习基础设施又是开展强化学习算法研究的基础，目前需要以下方向的研究： 1. 高效灵活的面向大模型的强化学习训练系统：能够支持各种强化学习复杂算法，同时支持大规模多卡高效率稳定训练。 2. 复杂强化学习算法在大规模计算下的并行化：强化学习算法普遍需要串行计算，对于规模化（scale up）大规模训练带来诸多挑战，而规模化又是推理能力提升的关键，因此需要研究在规模化前提下的强化学习算法。在本岗位，你将参与或主导相关领域的研究，并产出有影响力的成果并赋能业务部门。

更新于 2025-06-18杭州

大模型强化学习研究员

社招算法研究

1. 针对多模态大模型设计并实现强化学习算法，提升模型在推理、工具调用、Agentic 能力上的表现。 2. 参与大模型的强化学习训练流水线设计与实现，包括奖励建模、策略优化、对齐训练等环节。 3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理等方向的最新成果，基于前沿研究提出创新性方法，推动模型在复杂推理、长程规划、多轮对话等方向的突破。

更新于 2025-08-21北京|杭州|上海

游戏AI-强化学习算法研究员

社招5年以上游戏技术

1.参与腾讯游戏AI的算法研究和应用，包括但不限于强化学习、模仿学习、元学习等，结合游戏场景，提供技术解决方案； 2.强化学习算法应用效果优化，提高强化学习效率和效果，结合游戏场景进行应用； 3.前沿技术的探索，推进强化学习技术在业务场景的应用。

更新于 2025-09-30深圳