OpenAI 自带检索真的好用吗？定量测评带你深度了解！

向量数据库的劲敌来了？又有一批赛道创业公司要倒下？

……

这是 OpenAI 上线 Assistant 检索功能后，技术圈传出的部分声音。原因在于，此功能可以为用户提供基于知识库问答的 RAG（检索增强增强）能力。而此前，大家更倾向于将向量数据库作为 RAG 方案的重要组件，以达到减少大模型出现“幻觉”的效果。

那么，问题来了，OpenAI 自带的 Assistant 检索功能 V.S. 基于向量数据库构建的开源 RAG 方案相比，谁更胜一筹？

本着严谨的求证精神，我们对这个问题进行了定量测评，结果很有意思：OpenAI 真的很强！

不过，在基于向量数据库的开源 RAG 方案面前就有些逊色了！

接下来，我将还原整个测评过程。需要强调的是，要完成这些测评并不容易，少量的测试样本根本无法有效衡量 RAG 应用的各方面效果。

因此，需要采用一个公平、客观的 RAG 效果测评工具，在一个合适的数据集上进行测评，进行定量的评估和分析，并保证结果的可复现性。

话不多说，上过程！

一、评测工具

Ragas （https://docs.ragas.io/en/latest/）是一个致力于测评 RAG 应用效果的开源框架。用户只需要提供 RAG 过程中的部分信息，如 question、 contexts、 answer 等，它就能使用这些信息来定量评估多个指标。通过 pip 安装 Ragas，只需几行代码，即可进行评估，过程如下：

Python
from ragas import evaluate
from datasets import Dataset

# prepare your huggingface dataset in the format
# dataset = Dataset({
#     features: ['question', 'contexts', 'answer', 'ground_truths'],
#     num_rows: 25
# })
results = evaluate(dataset)

# {'ragas_score': 0.860, 'context_precision': 0.817,
# 'faithfulness': 0.892, 'answer_relevancy': 0.874

分享说明：转发分享请注明出处。

上一篇：人工智能会改变旧建筑的能源效率吗？

下一篇：麦肯锡：GenAI将主导2024年人工智能的商业格局