logo of antgroup

蚂蚁金服蚂蚁集团-多模态理解及应用-OCR与复杂文档解析

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


1. 学历背景: 计算机科学、人工智能、模式识别、电子工程或相关领域的硕士或博士学位。
2. 从业经验: 3年以上在OCR、文档理解或相关计算机视觉处理领域的算法研发经验。
3. 专业技能:精通至少一种主流深度学习框架(如PyTorchTensorFlow),并具备丰富的模型开发与调优经验;拥有大规模多模态大模型(VLM)的训练、微调或应用经验;在以…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 复杂文档结构化解析: 专注于复杂文档的深度解析,包括版面分析(Layout Analysis)、公式表格识别(Formula Table Recognition & Reconstruction)、关键信息抽取(Key Information Extraction, KIE)等,将非结构化的文档图像或PDF高效地转换成机器可读的结构化数据。
2. 文档问答(DocVQA)系统构建: 研发和迭代文档视觉问答模型,让大模型能够精准理解用户的自然语言提问,并结合视觉与文本信息,从复杂的文档(如研究报告、财务报表、合同、票据等)中定位、抽取并生成结构化答案。
3. 核心OCR能力提升: 负责前沿OCR技术的研发与优化,攻克手写体、低质量图像、艺术字、复杂排版等挑战性场景下的文字检测与识别难题,显著提升多模态大模型底层的文字信息获取(Text-in-Image)精度与鲁棒性。
4. 前沿技术探索与创新: 紧密跟踪多模态、OCR及文档智能领域的最新研究成果,结合业务需求进行技术预研、方案设计和原型实现,推动技术创新和专利产出。
5. 模型与系统优化: 负责构建和完善相关方向的数据集、评测体系和模型训练/推理流程,并与工程团队紧密合作,推动算法模型的性能优化与实际落地。
包括英文材料
学历+
模式识别+
OCR+
OpenCV+
算法+
深度学习+
PyTorch+
TensorFlow+
还有更多 •••
相关职位

logo of netease
实习网易有道

参与前沿大模型算法的研发与落地应用,方向包括但不限于:智能 Agent、Deep Research、多模态大模型、检索增强生成 (RAG) 等; 紧跟领域最新技术动态,探索创新算法方法,并积极推动科研成果的产出; 参与技术方案讨论、算法设计与实现、模型训练与优化等研发工作,保证项目进度和研发质量; 持续学习和掌握最新的大模型相关技术,并应用于实际产品和项目中,解决实际问题。

更新于 2025-06-18北京
logo of sensetime
校招算法研究

1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

更新于 2025-09-08深圳
logo of tongyi
实习通义研究型实习生

几何图形推理是多模态大模型领域的重要研究课题。随着深度学习技术的发展,尤其是多模态大模型的崛起,其在语义理解、图像分析和跨模态任务中的应用引起了广泛关注。几何推理涉及图形的识别、分类、分析和推导,是理解空间关系和逻辑关系的重要手段。在教育、机器人和自动驾驶等领域,掌握几何推理能力的智能系统具有重要的应用价值。 追踪多模态、图像处理、自然语言处理、图像视频生成、OCR&多模态文档分析理解等前沿技术,在一个或多个方向进行深入研究,发表高水平论文或期刊; 联合学习图像与文本模态,对图形进行细粒度的grounding、parsing和comprehension,以实现模型对平面或立体图形的理解; 利用强化学习进行几何关系推理,探索适合几何图形和空间图形推理的强化学习算法; 构建大规模的几何图形识别、解析和推理数据集,以训练和评估大模型对图形的理解和推理能力。

更新于 2024-10-15北京|杭州
logo of jd
社招3年以上软件开发岗

1. 负责大语言模型的开发与优化,根据业务需求设计并实现高效、稳定的算法模型,提升产品的智能化水平; 2. 参与大语言模型的核心技术研究,探索并应用最新的人工智能技术,解决业务中的复杂问题,推动技术创新; 3. 与产品、运营等团队紧密合作,确保技术方案的有效落地,共同推进项目目标的实现; 4. 负责技术文档的编写与维护,确保技术方案的清晰传达,促进团队内部知识共享与技术积累; 5. 跟踪行业内大语言模型的发展动态,提出技术改进建议,持续优化产品性能与用户体验。

更新于 2025-06-18北京