商汤26届AI领航员-研究院-大模型强化学习研究员

校招全职算法研究类2025-08-20地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

1. 拥有计算机科学、人工智能、统计学、应用数学或相关领域的硕士及以上学历。
2. 熟悉主流的强化学习算法（如 PPO, GRPO…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 针对多模态大模型设计并实现强化学习算法，提升模型在推理、工具调用、Agentic 能力上的表现。
2. 参与大模型的强化学习训练流水线设计与实现，包括奖励建模、策略优化、对齐训练等环节。
3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果，基于前沿研究提出创新性方法，推动模型在复杂推理、长程规划、多轮对话等方向的突破。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

26届AI领航员-研究院-多模态大模型强化学习算法工程师

校招算法研究

1. 参与文档解析多模态大模型的研发和迭代，研发高效的强化学习训练与推理系统，解决大规模图文数据处理、算力利用及模型优化问题； 2. 设计并实现适用于多模态大模型的奖励机制，涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务，探索创新性强化学习算法与多模态对齐方法； 3. 构建并优化多模态强化学习流程，包括数据生成、奖励模型训练、策略优化（如 PPO / DPO / GRPO 等）、模型评测与部署，实现模型能力的精准量化与持续优化； 4. 结合业务需求提出创新方案，推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

更新于 2025-09-08深圳

26届AI领航员-研究院-大语言模型算法研究员

校招算法研究

1.探索大模型后训练的技术边界，持续提升模型的通用人工智能能力； 2.研究强化学习，过程监督等方法在提升模型能力上的最前沿技术； 3.研究长思维链推理中的核心问题，如幻觉抑制，长度压缩等。

更新于 2025-08-21北京|深圳

26届AI领航员-研究院-算法研究员（超大模型AGI方向）

校招算法研究

1. 负责研究并实现创新算法以解决大模型挑战问题，支持AI代码助手、AI办公、拟人角色扮演等大模型课题； 2. 强化学习算法探索：挑战人类能力。探索模型的语义理解与AI生成能力的极限，进行超大模型训练算法设计； 3. 从系统应用的角度，利用大模型的理论和方法来解决实际业务问题。

更新于 2025-08-21北京

26届AI领航员-研究院-多模态推理与Agent能力突破

校招算法研究类

作为项目的核心成员，你将不仅仅是执行任务，更是与我们一同探索未知。具体职责包括：前沿探索：追踪并复现NeurIPS, ICML, ICLR, CVPR等顶会中关于多模态、Agentic AI、强化学习等方向的最新研究成果。算法实现：参与设计与实现创新的多模态融合、任务规划、工具学习、记忆与反思等核心算法模型。实验与分析：设计并执行大规模的AI实验，通过严谨的数据分析来验证假设、评估模型性能，并提出富有洞见的改进方向。系统构建：参与构建和优化项目的数据集、评测基准（Benchmark）以及Agent的执行环境。思想碰撞：与团队成员紧密合作，积极参与每周的技术讨论会和头脑风暴，贡献你的奇思妙想。

更新于 2025-08-20北京|上海|深圳