通义通义实验室-算法专家-文档智能QwenDoc
任职要求
职位要求 1. 具备良好的基础算法与代码能力,熟练掌握 Python 编程语言,熟悉Pytorch, transformers 等工具使用; 2. 熟悉文档理解、推理或生成技术,强化学习技术,AI agent智能体技术,具备相关开发经验者优先; 3. …
工作职责
团队介绍 通义实验室专注于通用人工智能(AGI)、大模型基础研究及行业应用创新。我们以前沿技术探索为驱动,推动大模型赋能千行百业,助力AI创造社会价值,服务云上生态合作伙伴。通义文档智能团队围绕长文本理解、文档写作、文档智能体和文档解析基础技术,专注于文档理解、推理、生成大模型的研究、探索和开发,依托集团业务场景与技术生态,推动前沿 AI 技术落地,打造多款通义产品如QwenLong、通义数据挖掘应用(QwenDoc)和文档智能解析产品Document Mind等。 职位描述 专注于文档理解、推理、生成大模型的研究、探索和开发,具体职责包括: 1. 通过研究超长上下文管理和记忆技术、模型自进化、long cot、数据自动合成技术等提升超长文本、多文档能力; 2. 长文本强化学习基础技术研究,包括long-context reasoning RL、open-ended generation RL、long-context agentic RL。重点解决长文本强化学习训练稳定性和推理过程监督问题,提升文档大模型长文推理能力、创作生成能力、文档agentic智能,发表高水平论文、techreport; 3. 研究深度文档创作技术,在SFT、RL阶段探索提升策略,优化reward model在创作任务上的判别精度和泛化性能,提升大模型的写作、纠错、改写、仿写、编辑、风格化、长文本输出等创作能力,设计完善的评估体系; 4. 研究多模态文档解析和理解技术,提升多模态文档细粒度理解、多模态多页长文档、表格理解、多模态推理等技术。
在LLM重构搜索的浪潮中,数据质量决定模型智能的天花板。我们需要你构建数据与模型的「双向进化引擎」,从万亿级多模态数据中提炼认知黄金,驱动大模型突破搜索理解的终极边界! 1. 万亿级网页提炼:研发多模态数据分析框架,通过网页解析、文档智能、知识抽取等技术,完成全网万亿级搜索网页的关键信息提炼。 2. 攻克数据质量理解:设计网页质量/权威性/可信度的多维度评估模型,以及跨模态数据表征技术,提升夸克在网页知识获取的准确性与可靠性。 3. 驱动数据与算法协同进化:探索大模型时代的数据评估方法论,量化数据优化对搜索效果和模型性能的影响。 4. 打造全网优质内容库:构建多模态数据的处理和挑选管线,建立覆盖网页/图文/视频等全域内容的智能知识库。
● 作为多模态搜索算法团队的负责人,主导构建全球领先的AI驱动跨境B2B搜索引擎,帮助全球买家高效寻找优质制造工厂。 ● 带领团队攻克复杂采购需求的理解难题,支持用户通过图像、图文、Excel表格、PDF文档等多模态输入方式表达采购意图,实现端到端智能解析与语义理解。 ● 设计并落地先进的多模态融合架构,结合视觉、语言与结构化数据理解技术,提升对产品规格、工艺要求、批量参数等关键信息的精准提取能力。 ● 构建高精度、可扩展的搜索引擎匹配系统,融合语义推理、知识构建与向量检索技术,实现“所想即所得”的智能搜索体验。 ● 与产品、工程及业务团队深度协作,洞察业务需求,定义合理的技术路线图,推动技术创新与产品落地。
1. 负责面向文档场景的多模态大模型研发,包括多模态大模型算法的视觉预训练、SFT等 2. 负责夸克扫描王OCR多模态大模型算法能力建设,关注包括文档、自然场景的文字内容理解、属性分析、文字生成等能力开发 3. 负责跟踪和研究大模型前沿技术调研、落地、对业务进行优化