腾讯腾讯云CodeBuddy-强化学习算法研究员
任职要求
1.自然语言处理/机器学习/模式识别/人工智能/计算机等相关专业硕士以上学历; 2.有5年以上的工程编码经验,熟练掌握 Python,C/C++,Golang,Java,JavaScript,TypeScript 等至少一种语言; 3.掌握深度学习基础知识,能根据具体问题做针对性优化,熟悉深度学习中不同任务及相应的主流模型和算…
工作职责
1.作为研究者,探索有效的 Agentic Workflow 和 Agentic Memory 设计来解决代码领域的问题; 2.主要关注比SFT泛化效果更好的强化学习;能结合实际用户需求、产生的用户数据、agent的实现细节,调整训练语料和训练目标; 3.能和agent开发高效沟通,设计memory存取逻辑,并且通过模型训练让模型适配自己设计的agent; 4.作为工程师,考虑到 LLM inference 对推理算力的高消耗,设计出合理的前后端交互,前端架构,后端架构,在有限的推理算力下,做出完整的 Agentic Workflow 解决方案。最好是探索一套通用可扩展的 Agentic Workflow 解决方案。

参与金融领域大模型的设计与优化,特别是在量化投资、风险控制、资产配置等场景下应用强化学习算法(RL)解决实际问题。 研究和开发基于强化学习的金融策略,包括但不限于投资组合优化、市场预测、风险管理等关键领域。 利用大模型和多模态数据(包括市场数据、新闻数据、社交媒体数据等),开发适应金融市场动态变化的智能决策系统。 优化金融场景下强化学习模型的训练与推理效率,探索基于DPO(决策过程优化)与RLHF(强化学习与人类反馈)的创新算法,提升策略的稳定性和适应性。 深入研究AI4Finance前沿技术,关注低延迟推理、模型压缩、算法加速等技术的应用,推动金融大模型在实时交易、资产管理等领域的落地。
强化学习是提升大模型推理能力的重要范式。大模型本身参数量大,训练资源消耗高,加上强化学习算法流程复杂,要开发灵活又高效的强化学习系统有诸多挑战,而大规模强化学习基础设施又是开展强化学习算法研究的基础,目前需要以下方向的研究: 1. 高效灵活的面向大模型的强化学习训练系统:能够支持各种强化学习复杂算法,同时支持大规模多卡高效率稳定训练。 2. 复杂强化学习算法在大规模计算下的并行化:强化学习算法普遍需要串行计算,对于规模化(scale up)大规模训练带来诸多挑战,而规模化又是推理能力提升的关键,因此需要研究在规模化前提下的强化学习算法。 在本岗位,你将参与或主导相关领域的研究,并产出有影响力的成果并赋能业务部门。

1. 针对多模态大模型设计并实现强化学习算法,提升模型在推理、工具调用、Agentic 能力上的表现。 2. 参与大模型的强化学习训练流水线设计与实现,包括奖励建模、策略优化、对齐训练等环节。 3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果,基于前沿研究提出创新性方法,推动模型在复杂推理、长程规划、多轮对话等方向的突破。