
商汤26届AI领航员-研究院-大模型强化学习研究员
任职要求
1. 拥有计算机科学、人工智能、统计学、应用数学或相关领域的硕士及以上学历。 2. 熟悉主流的强化学习算法(如 PPO, GRPO…
工作职责
1. 针对多模态大模型设计并实现强化学习算法,提升模型在推理、工具调用、Agentic 能力上的表现。 2. 参与大模型的强化学习训练流水线设计与实现,包括奖励建模、策略优化、对齐训练等环节。 3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果,基于前沿研究提出创新性方法,推动模型在复杂推理、长程规划、多轮对话等方向的突破。

1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

1.探索大模型后训练的技术边界,持续提升模型的通用人工智能能力; 2.研究强化学习,过程监督等方法在提升模型能力上的最前沿技术; 3.研究长思维链推理中的核心问题,如幻觉抑制,长度压缩等。

1. 负责研究并实现创新算法以解决大模型挑战问题,支持AI代码助手、AI办公、拟人角色扮演等大模型课题; 2. 强化学习算法探索:挑战人类能力。探索模型的语义理解与AI生成能力的极限,进行超大模型训练算法设计; 3. 从系统应用的角度,利用大模型的理论和方法来解决实际业务问题。

工作职责【岗位职责】 你将有机会参与以下一个或多个前沿方向的研究与开发: 多模态统一模型: 参与多模态大模型(文本、语音、图像等)的前沿研究,探索生成与理解任务的统一框架,以及高效的多模态联合学习方法。 个性化对话系统: 设计并实现更具“人性”的对话系统,重点攻克长期记忆、持续学习和情境感知等关键技术,让AI能够记住与你的每一次互动。 强化学习与交互策略: 将强化学习(RL)算法创新性地应用于语音/音频相关的多模态任务中,通过与环境或用户的交互,自主优化AI的决策与沟通策略。 语音智能体(Voice Agent): 参与构建具备主动交互与复杂任务规划能力的语音Agent,使其不仅能“听懂”,更能“思考”和“行动”,完成多轮、跨领域的复杂指令。 前沿技术探索: 跟踪NeurIPS, ICML, ICLR, ACL等顶会的前沿进展,快速复现、验证并改进相关算法,推动技术落地