在不久前举办的 AICon 全球人工智能开发与应用大会上,合合信息智能创新事业部研发总监,复旦博士常扬从 RAG 应用落地时常见问题与需求(文档解析、检索精度)出发,分享了针对性的高精度、高泛化性、多版面多元素识别支持的文档解析技术方案与整合长文档解析引擎、层级切片技术的向量化 Embedding 模型技术方案,以及开放域多模态信息抽取应用与知识库问答应用等实际场景的产品实践案例。 本文为常扬的演讲整理。
近年来,大模型的崛起为人工智能领域带来了革命性的变化。然而,在实际应用中,我们发现仅依靠大模型自身的知识和上下文并不能完全满足用户的需求。检索增强生成(Retrieval-Augmented Generation, RAG )应运而生,旨在通过引入外部知识库,解决领域知识缺乏和信息过时的问题。但其本身在产品化落地的过程中面临检索召回率低、生成质量差的问题。
我会从第一性原理出发,分析其核心突破点: 文档解析技术 与 向量化技术 ,看这两个技术如何发展, 加速 应用落地 的。
RAG 的背景与问题
在传统的大模型应用中,模型的知识来源主要是预训练数据和用户提供的上下文。然而,面对专业领域的复杂问题,模型往往难以给出准确、及时的回答。 的核心目标 是将外部的领域知识与大模型结合,使其能够生成更准确、更专业的回答。
LLM(大型语言模型)应用知识的数据来源包括“用户上下文输入和用户意图”、“大模型知识”和“外部文档”。RAG 位于三个知识源的交集处,结合了外部文档、用户输入的上下文、模型的知识进行生成。RCG(Retrieval-Centric Generation)专注于将知识检索与 LLM 的生成分开,把检索知识作为核心来源,而微调(Fine-Tuned LLM)则通过使用外部数据微调模型,提升模型在特定领域的理解能力。
RAG 的核心流程可以简化为以下三个步骤:
在这个流程中, 知识库构建和检索 是关键的技术环节,直接影响最终生成的质量。
尽管 RAG 有着广阔的应用前景,但在实际落地过程中,我们发现了许多问题。一篇研究论文总结了 RAG 应用中常见的 12 个问题,包括:
等等这些问题的存在,使得很多 RAG 产品难以从原型(MVP)走向真正满足市场需求的产品(PMF)。
在 AI 产品的开发中, 最小可行产品(MVP) 的构建相对容易,但要实现 产品市场契合(PMF) ,真正满足用户需求,却充满挑战。
从第一性原理出发,要解决上述问题,我们需要回归本质,关注 RAG 流程中的关键环节:
文档解析技术
在大模型 RAG 应用中, 文档解析 是一个关键环节。如何将复杂的 PDF 文档准确、高效地转换为大模型能够理解的格式,直接影响到模型的性能和应用效果。下面将深入探讨通用文档解析的挑战与解决方案,重点介绍从 PDF 到 Markdown 的转换过程,以及如何通过物理和逻辑版面分析,实现对各种复杂文档的高质量解析。
从计算机的角度来看,文档主要分为两类:
PDF 是一种常见的文档格式,其本质是一系列显示打印指令的集合,而非结构化的数据格式。例如,一个简单的“ Hello World ” PDF 文件,用文本编辑器打开后会发现大量的排版指令。这使得计算机在解析 PDF 时,难以直接获取其中的结构化信息。
解析 的挑战有:
为了让大模型有效地理解 PDF 中的内容,需要将其转换为一种模型熟悉的格式。成为了最佳选择,原因如下:
的优势:
复杂文档布局的解析难点有很多,比如:
有以下的典型挑战:
现有解析方法具备一定的局限性。基于规则的解析库,典型代表 PDF Miner、Py PDF 、Mu PDF 等。优点对电子版 PDF 的解析效果较好,速度快。缺点是无法处理扫描件和图像型 PDF 以及对复杂布局支持不足,难以准确还原阅读顺序。
基于深度学习的解析库,典型代表 Unstructured、Layout-Parser、PP-StructureV2 等。优点是能处理扫描件,具备一定的版面分析能力。缺点是效率较低,处理大型文档耗时长以及对复杂布局的支持有限,精度有待提高。
基于大模型的解析库,典型代表 GPT- PDF 。优点是具备多模态理解能力,直接处理图像和文本。缺点是计算资源消耗大,实时性差以及受限于大模型的输入长度,对长文档支持不足。
针对上述挑战,我们提出 TextIn 文档解析技术:
具备以下功能特性:
我们的解析流程主要分为三个阶段:
文档预处理
拆分文档将多页文档拆分为单页,便于并行处理。
类型识别区分电子版和扫描版,选择适当的处理策略。
版面分析
物理版面分析基于视觉特征,划分页面区域,如段落、列、图像、表格等。
逻辑版面分析基于语义特征,构建文档的目录树,确定元素的层次关系和阅读顺序。
内容重建
元素识别对文本、表格、公式、图像等进行精确识别。
格式转换根据需求生成 Markdown 或 JSON 格式,方便大模型理解或产品呈现。
物理版面分析逻辑如下:方法选择采用单阶段检测模型,兼顾精度和效率,避免复杂的多阶段流水线。数据处理注重数据的多样性和分布,增强模型的泛化能力。层级结构按照页(Page)→ 区块(Section)→ 列(Column)→ 段落(Paragraph)→ 文本片段(Text Slice)进行解析。阅读顺序还原策略从上到下、从左到右,结合页面布局和元素位置,准确还原阅读顺序。
逻辑版面分析逻辑如下:模型架构采用 Transformer,利用自注意力机制,捕获元素间的全局关系。父子关系确定标题与其子内容的从属关系,旁系关系识别同级元素之间的顺序关系,目录树构建通过关系预测结果,生成文档的逻辑结构树,方便内容的组织和导航。
面对多种复杂的文档解析需求,如何客观评估不同解析方法的效果,是一个重要问题。传统的文字和表格评估方法,无法全面衡量复杂布局和结构的解析质量。我们开源了 Markdown Tester,指标定义针对段落、标题、表格、公式、阅读顺序等核心元素,定义了识别率、召回率、F1 值等评价指标。结构评估引入树状编辑距离,评估目录树、表格结构与原文档的相似程度。可视化展示通过雷达图等方式,直观展示各解析方法在不同指标上的表现。
在实际应用中,解析效率至关重要。特别是在 RAG 场景下,需要对大量文档进行实时解析,要求解析过程既快又准。我们进行了以下优化策略,算法模块优化针对耗时模块,如版面分析和元素识别,优化算法,提高执行效率。并行处理采用分布式集群结构,对文档解析流程进行并行化处理,充分利用计算资源。资源调度智能调度计算任务,平衡负载,减少等待时间。
我们目前实现处理速度实现了对 100 页文档的解析,P90(90% 请求的响应时间)小于 1.5 秒。稳定性在大规模文档解析任务中,保持了高稳定性和低失败率。扩展性系统设计支持水平扩展,能够应对更大的数据量和更高的并发需求。
向量化技术
在现代自然语言处理任务中,向量化(Vectorization)技术扮演着关键角色,特别是在检索增强生成( RAG )模型中。下面将探讨向量化的原理、模型选择以及多尺度训练方法,揭示其在实际应用中的重要性和优化策略。
向量化的核心思想是将大量的文本数据转换为具有方向和数值的向量列表。这种表示方式使计算机能够利用矩阵运算的高效性,快速计算文本之间的语义相似度。在 RAG 模型中,向量化主要用于信息检索,即通过计算用户问题和文档块的向量相似度,找到最相关的文本内容。
在选择嵌入(Embedding)模型时,许多人可能会在网上查找评价效果较好的模型,或者自行进行评测。然而,在评估之前,建议先查看像 Hugging Face 上 MTEB 和 C-MTEB 评测基准排名,这些指标涵盖了文本分类、聚类、成对分类、重排序、检索等任务,能够大致了解每个模型在不同任务上的表现。
在选择合适的嵌入模型时,需要考虑以下六个关键因素:
特定领域适应性 :嵌入模型的训练依赖于大量语料,不同领域的语料量和质量会影响模型在该领域的表现。例如,在工业领域,如果训练语料较少,模型的性能可能不理想。因此,即使某个模型在排行榜上名列前茅,也应在自己的领域数据上进行测试。
检索精度 :对于以检索为核心的任务,模型的检索精度至关重要。需要评估模型在实际检索场景下的准确率和召回率。
语言支持 :根据业务需求,选择支持所需语言的模型,确保在多语言环境下的有效性。
文本块长度(Chunk Size) :文本块的长度应根据任务需求进行调整。如果处理的是信息密度较低的长文本,如小说,可能需要更长的文本块。而对于信息密度高、需要精确检索的内容,较短的文本块可能更合适。
模型大小与推理成本 :模型的大小直接影响推理的资源消耗和成本。在资源有限的情况下,需要在模型性能和资源消耗之间取得平衡。
检索效率 :在需要处理海量数据的场景下,检索效率变得尤为重要。模型的计算复杂度和向量维度都会影响检索速度。
我们的模型采用了对比学习的方法,这与业界领先的实践保持一致。其中一个较为特殊的点是引入了多尺度训练(Multi-Resolution Learning,MRL)。在训练过程中,我们采用不同的尺度,如 1024、512、256、128 等长度的 Token,计算整体的损失函数。这样做的目的是:
综上所述,向量化技术在 RAG 模型中具有不可替代的作用。通过慎重选择嵌入模型,结合多尺度训练等优化方法,我们能够在提高检索精度的同时,优化资源使用,实现高效、准确的文本信息检索。
总结
我们的目标始终是打造真正可用、好用的产品,实现从 MVP(最小可行产品)到 PMF(产品市场契合)的飞跃。只有当产品真正满足用户需求,具备市场推广价值,才能称之为成功的产品。
在 RAG (检索增强生成)应用中,我们发现了两个突出的核心问题:文档解析和向量化。为了解决这两个问题,我们专注于以下研究方向:
1. 通用文档解析
我们致力于实现快速、精准、稳定的文档解析,支持各种类型的文档,包括扫描件和多种版式。通过提高解析的稳定性,确保阅读顺序的正确,还原文档的真实结构。同时,提升解析的精度和效率,使解析过程更准确、更高效。
2. 高性能的嵌入模型(Embedding)
在向量化过程中,我们注重模型的精度和效率。选择最适合业务需求的嵌入模型,能够更高效地进行信息检索,提高检索的精确度和速度。这不仅包括模型本身的优化,还涉及对领域数据的深入理解和应用。
我们相信,专注于问题的本质,才能取得最大的收益。如果您对我们的技术和产品感兴趣,欢迎访问我们的官网 textin.com。在网站上,您可以了解更多关于通用文档解析、嵌入模型技术,以及我们的财报分析、分析师问答等产品信息。
感谢您的阅读和关注。
作者介绍:
常扬 ,合合信息智能创新事业部研发总监,复旦博士,复旦机器人智能实验室成员,国家级大学生赛事评审专家,多个技术社区 AI 专家博主,发表多篇 SCI 核心期刊学术论文,负责合合智能文档处理业务线的产品、技术、云服务平台研发工作,研究方向智能文档处理、多模态大模型。任职期间,先后主导了人工智能数据清洗平台,卡证识别、票据识别、行业文档定制等信息抽取产品,TextIn 智能文字识别云服务平台,TextIn 票据机器人、财报机器人、合同机器人等智能文档场景落地产品,为金融、制造、物流等行业提供智能文档处理产品与解决方案,在企业信息化转型领域具备丰富的技术落地经验和行业场景洞察力。
会议推荐
InfoQ 将于 10 月 18-19 日在上海举办 QCon 全球软件开发大会 ,覆盖前后端 / 算法工程师、技术管理者、创业者、投资人等泛开发者群体,内容涵盖当下热点(AI Agent、AI Infra、RAG 等)和传统经典(架构、稳定性、云原生等),侧重实操性和可借鉴性。现在大会已开始正式报名,可以享受 9 折优惠,单张门票立省 480 元(原价 4800 元),详情可联系票务经理 17310043226 咨询。