
商汤26届AI领航员-研究院-多模态大模型强化学习算法工程师
任职要求
1. 硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业; 2. 扎实的机器学习、深度学习、强化学习基础,包括预训练、SFT、DPO/PPO/GRPO等; 3. 具备RL算法优化和实践经验,熟悉Verl、openR1等相关框架优先; 4. 精通Python编程语言,对深度学习框架Pytorch有深入理解,包括其中高级特性和接口,了解常见的性能优化和质量保障方法,并具备利用这些技能进行高效模型评测的能力; 5. 具备良好的算法设计与工程实现能力,能独立推动从问题定义到方案落地的完整流程; 6. 在文档解析、多模态、NLP、CV或大模型相关领域有项目/论文/竞赛/开源成果者优先; 7. 具有创新精神和自我驱动力,能够在复杂问题中提出独立见解并推动创新落地。
工作职责
1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

1. 参与文档解析多模态大模型的研发,包括预训练、微调、指令对齐和推理优化; 2. 设计并实现高效的训练与推理系统,解决大规模文档数据处理、算力利用与模型优化问题; 3. 针对复杂文档场景,探索文本、版面(layout)、表格、公式、印章等多模态元素的解析方法; 4. 构建并优化文档解析全流程,包括数据预处理、模型训练、评测指标与工程化部署; 5. 结合业务需求,提出创新性方案并推动落地,形成可复现、可扩展的工程化体系。

前沿追踪与洞察: 紧跟NeurIPS, ICML, ICLR, CVPR等顶会的最新研究,快速消化、复现并提出独到的见解。 思想的碰撞与具象化: 参与团队Brainstorming,大胆提出你关于下一代模型架构的创新想法,并与团队成员一起论证其可行性。 核心代码实现: 使用PyTorch等框架,设计并实现新颖的多模态模型模块或完整的模型结构。你的代码将是验证想法的核心。 科学的实验与分析: 设计严谨的实验方案,在海量数据和计算资源上进行模型训练与评测,通过数据分析驱动模型迭代优化。 知识沉淀与分享: 撰写技术报告或论文,与团队分享你的发现,共同推动项目前进。

前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。