美团智能文档解析&OCR方向实习生
任职要求
1. 在读硕士研究生优先,计算机科学、人工智能、电子信息、自动化等相关专业优先; 2. 具备扎实的计算机基础与机器学习 / 深度学习基础,熟练使用 Python,熟悉 PyTorch、TensorFlow 等主流深度学习框架; 3. 有 OCR 相关项目经验,熟悉主流 OCR 算法与开源工具 / 框架,有多模态视觉大模型经验者优先; 4. 具备良好的数据…
工作职责
1. 参与版式分析、文本 / 公式 / 表格等多类要素的检测与识别模型研发与性能优化 2. 支持大模型在文档理解、信息抽取等方向上的应用与效果优化。 3. 参与大模型相关的数据处理工作,包括数据采集、清洗、预处理及分析。
团队介绍 通义实验室专注于通用人工智能(AGI)、大模型基础研究及行业应用创新。我们以前沿技术探索为驱动,推动大模型赋能千行百业,助力AI创造社会价值,服务云上生态合作伙伴。通义文档智能团队围绕长文本理解、文档写作、文档智能体和文档解析基础技术,专注于文档理解、推理、生成大模型的研究、探索和开发,依托集团业务场景与技术生态,推动前沿 AI 技术落地,打造多款通义产品如QwenLong、通义数据挖掘应用(QwenDoc)和文档智能解析产品Document Mind等。 职位描述 专注于文档理解、推理、生成大模型的研究、探索和开发,具体职责包括: 1. 通过研究超长上下文管理和记忆技术、模型自进化、long cot、数据自动合成技术等提升超长文本、多文档能力; 2. 长文本强化学习基础技术研究,包括long-context reasoning RL、open-ended generation RL、long-context agentic RL。重点解决长文本强化学习训练稳定性和推理过程监督问题,提升文档大模型长文推理能力、创作生成能力、文档agentic智能,发表高水平论文、techreport; 3. 研究深度文档创作技术,在SFT、RL阶段探索提升策略,优化reward model在创作任务上的判别精度和泛化性能,提升大模型的写作、纠错、改写、仿写、编辑、风格化、长文本输出等创作能力,设计完善的评估体系; 4. 研究多模态文档解析和理解技术,提升多模态文档细粒度理解、多模态多页长文档、表格理解、多模态推理等技术。
1. 复杂文档结构化解析: 专注于复杂文档的深度解析,包括版面分析(Layout Analysis)、公式表格识别(Formula Table Recognition & Reconstruction)、关键信息抽取(Key Information Extraction, KIE)等,将非结构化的文档图像或PDF高效地转换成机器可读的结构化数据。 2. 文档问答(DocVQA)系统构建: 研发和迭代文档视觉问答模型,让大模型能够精准理解用户的自然语言提问,并结合视觉与文本信息,从复杂的文档(如研究报告、财务报表、合同、票据等)中定位、抽取并生成结构化答案。 3. 核心OCR能力提升: 负责前沿OCR技术的研发与优化,攻克手写体、低质量图像、艺术字、复杂排版等挑战性场景下的文字检测与识别难题,显著提升多模态大模型底层的文字信息获取(Text-in-Image)精度与鲁棒性。 4. 前沿技术探索与创新: 紧密跟踪多模态、OCR及文档智能领域的最新研究成果,结合业务需求进行技术预研、方案设计和原型实现,推动技术创新和专利产出。 5. 模型与系统优化: 负责构建和完善相关方向的数据集、评测体系和模型训练/推理流程,并与工程团队紧密合作,推动算法模型的性能优化与实际落地。
- 参与交通和政务知识中枢模块的构建与优化,包括场景化文档智能解析、知识智能生产、知识洞察分析等功能 - 参与交通和政务多模态大模型应用的构建与优化,包括场景化的视觉大模型、多模态大模型应用,提升城市治理效率和效果 - 参与交通和政务行业大模型的数据建设、模型评测等领域模型构建工作 - 分析模型在不同场景下应用效果和性能,并根据反馈进行迭代优化