蚂蚁金服蚂蚁集团-多模态理解及应用-OCR与复杂文档解析-杭州/北京【AGI专项】

社招全职3年以上技术类-算法2026-07-15地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 学历背景： 计算机科学、人工智能、模式识别、电子工程或相关领域的硕士或博士学位。
2. 从业经验： 3年以上在OCR、文档理解或相关计算机视觉处理领域的算法研发经验。
3. 专业技能：精通至少一种主流深度学习框架（如PyTorch、TensorFlow），并具备丰富的模型开发与调优经验；拥有大规模多模态大模型（VLM）的训练、微调或应用经验；在以…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 复杂文档结构化解析： 专注于复杂文档的深度解析，包括版面分析（Layout Analysis）、公式表格识别（Formula Table Recognition & Reconstruction）、关键信息抽取（Key Information Extraction, KIE）等，将非结构化的文档图像或PDF高效地转换成机器可读的结构化数据。
2. 文档问答（DocVQA）系统构建： 研发和迭代文档视觉问答模型，让大模型能够精准理解用户的自然语言提问，并结合视觉与文本信息，从复杂的文档（如研究报告、财务报表、合同、票据等）中定位、抽取并生成结构化答案。
3. 核心OCR能力提升： 负责前沿OCR技术的研发与优化，攻克手写体、低质量图像、艺术字、复杂排版等挑战性场景下的文字检测与识别难题，显著提升多模态大模型底层的文字信息获取（Text-in-Image）精度与鲁棒性。
4. 前沿技术探索与创新： 紧密跟踪多模态、OCR及文档智能领域的最新研究成果，结合业务需求进行技术预研、方案设计和原型实现，推动技术创新和专利产出。
5. 模型与系统优化： 负责构建和完善相关方向的数据集、评测体系和模型训练/推理流程，并与工程团队紧密合作，推动算法模型的性能优化与实际落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

模式识别+

OCR+

OpenCV+

算法+

深度学习+

PyTorch+

TensorFlow+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-多模态理解及应用-多模态大模型评测-杭州/北京【AGI专项】

社招3年以上技术类-算法

1. 评测体系设计与搭建: 负责设计和搭建业界领先的全模态（图文、音视频）大模型评测体系，建立科学、全面、高效的评测流程、标准和自动化平台。 2. 评测基准 (Benchmark) 建设: 主导全模态评测基准的建设，持续追踪和引入学界、业界最新成果，并结合业务场景，设计和构建能反映模型真实能力的评测数据集。 3. 核心能力度量: 深入研究全模态大模型的能力边界，设计创新性的评测方法和指标（Metrics），精准度量模型在跨模态理解、内容生成、多轮交互、逻辑推理、鲁棒性及安全性等维度的综合能力。 4. 技术落地与效率提升: 发挥强大的工程和动手能力，主导评测工具链和平台的开发与优化，实现评测流程的自动化和规模化，大幅提升评测效率和质量。 5. 跨团队协作: 与算法、工程、产品团队紧密合作，将评测结果有效转化为模型能力提升和用户体验优化的具体行动，共同打造顶尖的全模态AI产品。

更新于 2026-07-15北京|杭州

多模态内容理解算法及应用-阿里星

实习阿里巴巴2027

相关研究课题细分方向如下： 1. 基于MLLM的表征技术及零少样本建模设计 2. 面向质量任务的VQA能力建设及在视频审核中的应用 3. 面向直播流的轻量化模型应用及大模型知识蒸馏技术 4. 结合推荐系统的泛化表征设计及分发应用 5. 百亿级视觉检索技术及淘宝素材同源库建设 6. 视频内容生成技术及质量攻防系统建设

更新于 2026-03-17北京|杭州

电商多模态大模型及在商品理解的应用-Bravo Star

实习阿里巴巴2027

我们是阿里巴巴国际数字商业集团-智能技术-商品基础数据算法团队，基于研发电商多模态预训练模型基座，通过多模态商品理解、商品同款匹配、商品属性&标签生产、知识图谱构建、图像搜索等核心技术的持续迭代，为平台沉淀高质量、结构化的商品数据资产和多模态大模型基座。主攻前沿方向：Continual Pre-Training/Post-Training 模型持续优化、SFT 监督微调与用户偏好对齐、RL 强化学习提升推理和决策能力、多模态（文本 + 图像）语义匹配。 1、负责研发电商多模态预训练模型基座，抽象并解决商品理解的基础问题使得模型具备业务通识能力，并构建针对大模型幻觉问题、推理能力、模型加速等关键问题的系统性解决方案，提高下游业务的迭代效率和效果上限； 2、基于多模态预训练大模型，设计和迭代 SFT+RL 训练方案，优化模型语义理解精度，落地商品理解关键场景任务，比如商品类目/属性/标签预测、商品同款、商品图搜等，负责关键场景的端到端全链路优化，实现业务指标提升； 3、学习前沿论文与把握技术趋势，深入理解底层算法原理，探索实验面向未来的硬核技术，实现核心技术突破和技术创新，发表相关论文。

更新于 2026-04-08杭州

数据技术及产品部-多模态理解大模型评测专家-杭州/北京

社招4年以上

1. 主导多模态理解大模型评测体系设计，从真实用户场景出发定义核心能力维度，将体验痛点转化为可量化的评测指标。 2. 设计覆盖信息检索、内容理解、文档分析、视频摘要、富媒体问答等高频场景的评测任务，推动评测从"学术任务"向"产品体验"演进。 3. 持续挖掘真实使用中的 Bad Case，做系统性分类与归因，形成问题清单与改进优先级。 4. 建立评测数据质量管控与版本管理机制，定期更新评测集以覆盖新场景与新模态组合。 5. 与产品、算法团队紧密协作，在新模型上线前完成评测，提供数据驱动的优先级建议。

更新于 2026-06-01北京|杭州