蚂蚁金服蚂蚁集团-多模态理解及应用-OCR与复杂文档解析
任职要求
1. 学历背景: 计算机科学、人工智能、模式识别、电子工程或相关领域的硕士或博士学位。 2. 从业经验: 3年以上在OCR、文档理解或相关计算机视觉处理领域的算法研发经验。 3. 专业技能:精通至少一种主流深度学习框架(如PyTorch、TensorFlow),并具备丰富的模型开发与调优经验;拥有大规模多模态大模型(VLM)的训练、微调或应用经验;在以…
工作职责
1. 复杂文档结构化解析: 专注于复杂文档的深度解析,包括版面分析(Layout Analysis)、公式表格识别(Formula Table Recognition & Reconstruction)、关键信息抽取(Key Information Extraction, KIE)等,将非结构化的文档图像或PDF高效地转换成机器可读的结构化数据。 2. 文档问答(DocVQA)系统构建: 研发和迭代文档视觉问答模型,让大模型能够精准理解用户的自然语言提问,并结合视觉与文本信息,从复杂的文档(如研究报告、财务报表、合同、票据等)中定位、抽取并生成结构化答案。 3. 核心OCR能力提升: 负责前沿OCR技术的研发与优化,攻克手写体、低质量图像、艺术字、复杂排版等挑战性场景下的文字检测与识别难题,显著提升多模态大模型底层的文字信息获取(Text-in-Image)精度与鲁棒性。 4. 前沿技术探索与创新: 紧密跟踪多模态、OCR及文档智能领域的最新研究成果,结合业务需求进行技术预研、方案设计和原型实现,推动技术创新和专利产出。 5. 模型与系统优化: 负责构建和完善相关方向的数据集、评测体系和模型训练/推理流程,并与工程团队紧密合作,推动算法模型的性能优化与实际落地。
参与前沿大模型算法的研发与落地应用,方向包括但不限于:智能 Agent、Deep Research、多模态大模型、检索增强生成 (RAG) 等; 紧跟领域最新技术动态,探索创新算法方法,并积极推动科研成果的产出; 参与技术方案讨论、算法设计与实现、模型训练与优化等研发工作,保证项目进度和研发质量; 持续学习和掌握最新的大模型相关技术,并应用于实际产品和项目中,解决实际问题。

1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。
几何图形推理是多模态大模型领域的重要研究课题。随着深度学习技术的发展,尤其是多模态大模型的崛起,其在语义理解、图像分析和跨模态任务中的应用引起了广泛关注。几何推理涉及图形的识别、分类、分析和推导,是理解空间关系和逻辑关系的重要手段。在教育、机器人和自动驾驶等领域,掌握几何推理能力的智能系统具有重要的应用价值。 追踪多模态、图像处理、自然语言处理、图像视频生成、OCR&多模态文档分析理解等前沿技术,在一个或多个方向进行深入研究,发表高水平论文或期刊; 联合学习图像与文本模态,对图形进行细粒度的grounding、parsing和comprehension,以实现模型对平面或立体图形的理解; 利用强化学习进行几何关系推理,探索适合几何图形和空间图形推理的强化学习算法; 构建大规模的几何图形识别、解析和推理数据集,以训练和评估大模型对图形的理解和推理能力。