logo of tencent

腾讯腾讯云CodeBuddy-强化学习算法研究员

社招全职3年以上腾讯云-开发者助手技术地点:深圳状态:招聘

任职要求


1.自然语言处理/机器学习/模式识别/人工智能/计算机等相关专业硕士以上学历;
2.有5年以上的工程编码经验,熟练掌握 PythonC/C++GolangJavaJavaScriptTypeScript 等至少一种语言;
3.掌握深度学习基础知识,能根据具体问题做针对性优化,熟悉深度学习中不同任务及相应的主流模型和算…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.作为研究者,探索有效的 Agentic Workflow 和 Agentic Memory 设计来解决代码领域的问题;
2.主要关注比SFT泛化效果更好的强化学习;能结合实际用户需求、产生的用户数据、agent的实现细节,调整训练语料和训练目标;
3.能和agent开发高效沟通,设计memory存取逻辑,并且通过模型训练让模型适配自己设计的agent;
4.作为工程师,考虑到 LLM inference 对推理算力的高消耗,设计出合理的前后端交互,前端架构,后端架构,在有限的推理算力下,做出完整的 Agentic Workflow 解决方案。最好是探索一套通用可扩展的 Agentic Workflow 解决方案。
包括英文材料
NLP+
机器学习+
模式识别+
学历+
Python+
C+
C+++
Go+
Java+
JavaScript+
还有更多 •••
相关职位

logo of 10jqka
校招金融研究类

参与金融领域大模型的设计与优化,特别是在量化投资、风险控制、资产配置等场景下应用强化学习算法(RL)解决实际问题。 研究和开发基于强化学习的金融策略,包括但不限于投资组合优化、市场预测、风险管理等关键领域。 利用大模型和多模态数据(包括市场数据、新闻数据、社交媒体数据等),开发适应金融市场动态变化的智能决策系统。 优化金融场景下强化学习模型的训练与推理效率,探索基于DPO(决策过程优化)与RLHF(强化学习与人类反馈)的创新算法,提升策略的稳定性和适应性。 深入研究AI4Finance前沿技术,关注低延迟推理、模型压缩、算法加速等技术的应用,推动金融大模型在实时交易、资产管理等领域的落地。

杭州
logo of antgroup
社招3年以上技术类-算法

强化学习是提升大模型推理能力的重要范式。大模型本身参数量大,训练资源消耗高,加上强化学习算法流程复杂,要开发灵活又高效的强化学习系统有诸多挑战,而大规模强化学习基础设施又是开展强化学习算法研究的基础,目前需要以下方向的研究: 1. 高效灵活的面向大模型的强化学习训练系统:能够支持各种强化学习复杂算法,同时支持大规模多卡高效率稳定训练。 2. 复杂强化学习算法在大规模计算下的并行化:强化学习算法普遍需要串行计算,对于规模化(scale up)大规模训练带来诸多挑战,而规模化又是推理能力提升的关键,因此需要研究在规模化前提下的强化学习算法。 在本岗位,你将参与或主导相关领域的研究,并产出有影响力的成果并赋能业务部门。

更新于 2025-06-18杭州
logo of sensetime
社招算法研究

1. 针对多模态大模型设计并实现强化学习算法,提升模型在推理、工具调用、Agentic 能力上的表现。 2. 参与大模型的强化学习训练流水线设计与实现,包括奖励建模、策略优化、对齐训练等环节。 3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果,基于前沿研究提出创新性方法,推动模型在复杂推理、长程规划、多轮对话等方向的突破。

更新于 2025-08-21北京|杭州|上海
logo of tencent
社招5年以上游戏技术

1.参与腾讯游戏AI的算法研究和应用,包括但不限于强化学习、模仿学习、元学习等,结合游戏场景,提供技术解决方案; 2.强化学习算法应用效果优化,提高强化学习效率和效果,结合游戏场景进行应用; 3.前沿技术的探索,推进强化学习技术在业务场景的应用。

更新于 2025-09-30深圳