商汤26届AI领航员-研究院-多模态大模型强化学习算法工程师

校招全职算法研究2025-09-08地点：深圳状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机科学、人工智能、自动化、数学等相关专业；
2. 扎实的机器学习、深度学习、强化学习基础，包括预训练、SFT、DPO/PPO/GRPO等；
3. 具备RL算法优化和实践经验，熟悉Verl、openR1等相关框架优先；
4. 精通Python编程语言，对深度学习框架Pytorch有深入理解，包括其中高级特性和…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与文档解析多模态大模型的研发和迭代，研发高效的强化学习训练与推理系统，解决大规模图文数据处理、算力利用及模型优化问题；
2. 设计并实现适用于多模态大模型的奖励机制，涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务，探索创新性强化学习算法与多模态对齐方法；
3. 构建并优化多模态强化学习流程，包括数据生成、奖励模型训练、策略优化（如 PPO / DPO  / GRPO 等）、模型评测与部署，实现模型能力的精准量化与持续优化；
4. 结合业务需求提出创新方案，推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

深度学习+

强化学习+

SFT+

还有更多 •••

登录查看完整学习资料

相关职位

26届AI领航员-研究院-多模态大模型算法工程师

校招算法研究

1. 参与文档解析多模态大模型的研发，包括预训练、微调、指令对齐和推理优化； 2. 设计并实现高效的训练与推理系统，解决大规模文档数据处理、算力利用与模型优化问题； 3. 针对复杂文档场景，探索文本、版面（layout）、表格、公式、印章等多模态元素的解析方法； 4. 构建并优化文档解析全流程，包括数据预处理、模型训练、评测指标与工程化部署； 5. 结合业务需求，提出创新性方案并推动落地，形成可复现、可扩展的工程化体系。

更新于 2025-09-08北京|深圳

26届AI领航员-研究院-多模态交互与智能体方向

校招算法研究类

工作职责【岗位职责】你将有机会参与以下一个或多个前沿方向的研究与开发：多模态统一模型：参与多模态大模型（文本、语音、图像等）的前沿研究，探索生成与理解任务的统一框架，以及高效的多模态联合学习方法。个性化对话系统：设计并实现更具“人性”的对话系统，重点攻克长期记忆、持续学习和情境感知等关键技术，让AI能够记住与你的每一次互动。强化学习与交互策略：将强化学习（RL）算法创新性地应用于语音/音频相关的多模态任务中，通过与环境或用户的交互，自主优化AI的决策与沟通策略。语音智能体（Voice Agent）：参与构建具备主动交互与复杂任务规划能力的语音Agent，使其不仅能“听懂”，更能“思考”和“行动”，完成多轮、跨领域的复杂指令。前沿技术探索：跟踪NeurIPS, ICML, ICLR, ACL等顶会的前沿进展，快速复现、验证并改进相关算法，推动技术落地

更新于 2025-08-21上海

26届AI领航员-研究院-算法研究员（多模态理解生成）

校招算法研究类

1. 多模态理解与生成算法研究：紧跟领域前沿，深入研究多模态（图像、文本、视频）的理解与生成统一的核心算法； 2. 模型设计与优化：负责多模态理解与生成模型的设计、训练、评估和优化，不断提升模型性能和泛化能力； 3. 创新技术探索：探索新的预训练和后训练范式，发现和解决大模型靠单一模态难以解决的问题。

更新于 2025-08-21北京|上海|深圳

26届AI领航员-研究院-大模型算法研究员（模型训练）

校招算法研究

1. 负责大模型算法框架的研发，整体提升算法框架训练效率，跟进最近的训练技术； 2. 负责探索MOE、RLHF 等相关对齐技术，提升模型的最终效果； 3. 负责多模态模型和Function Call 模型的联合训练，整体优化多模态模型和语言模型联合训练。

更新于 2025-08-21北京|上海|深圳