从RAG到多模态搜索看OpenAI的技术演进

作者 | 崔皓

审校 | 重楼

摘要

本文探讨了信息检索与文本生成领域的最新进展，特别关注了OpenAI的RAG模型及其在文本内容搜索上的应用。文章详细介绍了gpt-4-vision-preview模型，这一模型标志着从结构化搜索向非结构化搜索的重大转变，能够有效处理和解释多模态信息，如图片、表格和文本。通过实际案例分析，文章展示了如何利用这些技术进行企业文档管理、学术研究和媒体内容分析，为读者提供了关于如何运用这些先进技术进行多模态数据处理的深入见解。

开篇

在人工智能的领域内，信息检索与文本生成一直是两个重要的研究方向。OpenAI的RAG（Retrieval-Augmented Generation）模型，作为这一领域的突破性成果，成功地将神经网络的文本生成能力与大规模数据集的检索功能结合起来。这一创新不仅提升了文本生成模型的准确性和信息丰富度，而且解决了传统模型在应对复杂查询时的局限性。

RAG模型的主流应用体现在文本内容的搜索上，例如企业知识库的检索。通过文本加载、切割、嵌入、索引等方法建立输入与目标的相关性，最终将搜索结果呈现给用户。然而，随着信息类型的多样化，传统的文本搜索已经不能满足所有的需求。

此时，OpenAI推出了gpt-4-vision-preview模型，这不仅是技术上的一大跃进，更标志着从结构化搜索走向非结构化搜索的重要转变。该模型具备处理和解释多模态信息的能力，无论是图片、表格还是文本，都能够被有效地摘要和搜索。这一进步极大地扩展了RAG功能的外延，为多模态数据处理开辟了新的道路。

例如，在企业文档管理方面，gpt-4-vision-preview可以分析含有图表和文本的PDF格式文档，如合同和报告，提供精准的摘要和关键信息提取。在学术研究领域，这一技术能自动整理和分析学术论文中的数据和图像，极大提升研究效率。而在媒体内容分析上，新闻报道中的图片与文本内容可以被整合分析，为媒体从业者提供更深入的洞察。

今天我会通过这篇文章，手把手带大家如何实现对一个多模态PDF的分析和搜索。

场景分析

那么今天的主角就要登场了，如下图所示，这个PDF文件是一个典型的财经市场分析报告，包含了丰富的文字、图表和数据。

财经市场分析报告

报告不仅包含了详细的文本描述，如市场趋势的分析和预测，还包括了大量的图表和数据，如股票市场的指数、固定收益产品的收益率和关键利率等。这些图表和数据在理解整个市场情况中起着至关重要的作用。

然而，人工处理这类多模态的PDF文件常常是耗时且劳力密集的。分析师需要仔细阅读文本，解读图表和数据，并将这些信息综合起来以形成完整的市场观点。这个过程不仅耗时，还容易出错，特别是在处理大量复杂数据时。

传统的RAG模型在处理这类多模态PDF文件时显得力不从心。尽管RAG在处理和生成基于文本的信息方面表现出色，但它主要针对文字内容进行搜索和生成，对于非文本元素，如图表和数据，其处理能力有限。这就意味着，在使用RAG模型进行信息检索时，对于包含非文本元素的复杂PDF文件，它可能无法充分理解和利用文件中的所有信息。

因此，针对这种业务场景就需要使用OpenAI推出的多模态的处理方式，利用GPT-4-Vision-Preview模型处理文本、图表和数据，以提供更加全面和准确的分析。从而提高分析效率，还能减少由于人工处理的错误而造成的风险。

技术分析

在多模态PDF文档处理中，首要挑战是识别文档中的非结构化信息，如图片、表格和文字。这里我们需要使用unstructured库，它提供了用于摄取和预处理图像和文本文档的开源组件，如PDF、HTML、Word文档等。它的主要用途是简化和优化大型语言模型（LLMs）的数据处理工作流程。unstructured的模块化功能和连接器形成了一个简化数据摄取和预处理的一致系统，使其适应不同平台，有效地将非结构化数据转换为结构化输出。

除此之外，为了更好处理PDF文档，我们还引入了poppler-utils工具，它被用来提取图片和文本。特别是其中的pdfimages和pdftotext工具，分别用于从PDF中提取嵌入的图像和全部文本，这对于多模态PDF的分析至关重要。

备注：Poppler是一个PDF文档渲染库，可以使用两种后端进行绘制，分别是Cairo和Splash。这两种后端的特性有所不同，Poppler的功能也可能依赖于它使用的后端。此外，还有一个基于Qt4的绘图框架“Arthur”的后端，但这个后端不完整且已停止开发。Poppler为Glib和Qt5提供绑定，这些绑定提供了对Poppler后端的接口，尽管Qt5绑定只支持Splash和Arthur后端。Cairo后端支持矢量图形的抗锯齿和透明对象，但不支持平滑位图图像如扫描文档，并且不依赖于X Window系统，因此Poppler可以在Wayland、Windows或macOS等平台上运行。Splash后端支持位图的缩小过滤。Poppler还附带一个文本渲染后端，可通过命令行工具pdftotext调用，用于在命令行中搜索PDF中的字符串，例如使用grep工具。

解决了图片、表格和问题的提取问题之后，在将图片和表格内容转换为可分析的文本格式方面，Tesseract-OCR工具发挥了关键作用。尽管Tesseract不能直接处理PDF文件，但它可以将转换为.tiff格式的PDF文件中的图像转换为文本。这个过程是处理多模态PDF的关键环节，使得原本以图像或表格形式存在的信息转化为可供进一步分析的文本形式。

当然除了上面提到的识别和分离PDF元素的技术之外，例如：向量存储、向量索引器等技术也会用到，由于在传统的RAG 中经常用到，这里就不赘述了。

代码实现

经过场景和技术分析之后，我们了解到如果需要对PDF进行多模态的分析和查询，首先是要对其中的图片、表格、文字进行识别。这里我们会引入unstructured 、Poppler库以及Tesseract-OCR工具。有了这些工具的加持让我们的编码过程更加如虎添翼。

安装库和工具

!pip install langchain unstructured[all-docs] pydantic lxml openai chromadb tiktoken -q -U
!apt-get install poppler-utils tesseract-ocr

分享说明：转发分享请注明出处。

上一篇：只需一张图片、一句动作指令，Animate124轻松生成3D视频

下一篇：年终收官！华为云开发者日·2023年度创享峰会成功举办