
商汤26届AI领航员-研究院-多模态大模型强化学习算法工程师
任职要求
1. 硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业; 2. 扎实的机器学习、深度学习、强化学习基础,包括预训练、SFT、DPO/PPO/GRPO等; 3. 具备RL算法优化和实践经验,熟悉Verl、openR1等相关框架优先; 4. 精通Python编程语言,对深度学习框架Pytorch有深入理解,包括其中高级特性和…
工作职责
1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

1. 参与文档解析多模态大模型的研发,包括预训练、微调、指令对齐和推理优化; 2. 设计并实现高效的训练与推理系统,解决大规模文档数据处理、算力利用与模型优化问题; 3. 针对复杂文档场景,探索文本、版面(layout)、表格、公式、印章等多模态元素的解析方法; 4. 构建并优化文档解析全流程,包括数据预处理、模型训练、评测指标与工程化部署; 5. 结合业务需求,提出创新性方案并推动落地,形成可复现、可扩展的工程化体系。

工作职责【岗位职责】 你将有机会参与以下一个或多个前沿方向的研究与开发: 多模态统一模型: 参与多模态大模型(文本、语音、图像等)的前沿研究,探索生成与理解任务的统一框架,以及高效的多模态联合学习方法。 个性化对话系统: 设计并实现更具“人性”的对话系统,重点攻克长期记忆、持续学习和情境感知等关键技术,让AI能够记住与你的每一次互动。 强化学习与交互策略: 将强化学习(RL)算法创新性地应用于语音/音频相关的多模态任务中,通过与环境或用户的交互,自主优化AI的决策与沟通策略。 语音智能体(Voice Agent): 参与构建具备主动交互与复杂任务规划能力的语音Agent,使其不仅能“听懂”,更能“思考”和“行动”,完成多轮、跨领域的复杂指令。 前沿技术探索: 跟踪NeurIPS, ICML, ICLR, ACL等顶会的前沿进展,快速复现、验证并改进相关算法,推动技术落地

1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。