logo of sensetime

商汤26届AI领航员-研究院-大模型强化学习研究员

校招全职算法研究类地点:北京 | 上海 | 深圳状态:招聘

任职要求


1. 拥有计算机科学、人工智能、统计学、应用数学或相关领域的硕士及以上学历。
2. 熟悉主流的强化学习算法(如 PPO, GRPO, GSPO 等)及其在大型模型上的应用。
3. 熟悉 Python 编程,并熟练掌握至少一种主流深度学习框架(PyTorch)。

工作职责


1. 针对多模态大模型设计并实现强化学习算法,提升模型在推理、工具调用、Agentic 能力上的表现。
2. 参与大模型的强化学习训练流水线设计与实现,包括奖励建模、策略优化、对齐训练等环节。
3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果,基于前沿研究提出创新性方法,推动模型在复杂推理、长程规划、多轮对话等方向的突破。
包括英文材料
学历+
强化学习+
算法+
Python+
深度学习+
PyTorch+
相关职位

logo of sensetime
校招算法研究

1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

更新于 2025-09-08
logo of sensetime
校招算法研究

1.探索大模型后训练的技术边界,持续提升模型的通用人工智能能力; 2.研究强化学习,过程监督等方法在提升模型能力上的最前沿技术; 3.研究长思维链推理中的核心问题,如幻觉抑制,长度压缩等。

更新于 2025-08-21
logo of sensetime
校招算法研究

1. 负责研究并实现创新算法以解决大模型挑战问题,支持AI代码助手、AI办公、拟人角色扮演等大模型课题; 2. 强化学习算法探索:挑战人类能力。探索模型的语义理解与AI生成能力的极限,进行超大模型训练算法设计; 3. 从系统应用的角度,利用大模型的理论和方法来解决实际业务问题。

更新于 2025-08-13
logo of sensetime
校招算法研究类

作为项目的核心成员,你将不仅仅是执行任务,更是与我们一同探索未知。 具体职责包括: 前沿探索: 追踪并复现NeurIPS, ICML, ICLR, CVPR等顶会中关于多模态、Agentic AI、强化学习等方向的最新研究成果。 算法实现: 参与设计与实现创新的多模态融合、任务规划、工具学习、记忆与反思等核心算法模型。 实验与分析: 设计并执行大规模的AI实验,通过严谨的数据分析来验证假设、评估模型性能,并提出富有洞见的改进方向。 系统构建: 参与构建和优化项目的数据集、评测基准(Benchmark)以及Agent的执行环境。 思想碰撞: 与团队成员紧密合作,积极参与每周的技术讨论会和头脑风暴,贡献你的奇思妙想。

更新于 2025-08-20