国科网

2024-12-26 21:48:33  星期四
立足国科融媒,服务先进科技
OpenAI与开源多语言嵌入模型,你选择哪一家?

点赞

0
发布时间:2024年03月05日 浏览量:356次 所属栏目:人工智能 发布者:田佳恬

译者 | 朱先忠

审校 | 重楼

出品 | 51CTO技术栈(微信号:blog51cto)

本文对OpenAI的多个嵌入模型与多家开源的多语言嵌入模型进行了综合比较,帮助你最终选择最适合自己的大数据开发模型。

1.引言

OpenAI最近发布了他们的新一代嵌入模型,称为嵌入v3,他们将其描述为性能最高的嵌入模型,而且具有更高的多语言性能。这些模型分为两类:一类较小,称为text-embedding-3-mall;另一类较大,功能也更强大,称为text-embedding-3-large。

关于这些模型的设计和训练方式,披露的信息很少。作为他们之前发布的嵌入模型(2022年12月,通过模型类ada-002的方式呈现),OpenAI公司再次选择了一种闭源市场策略,即这些模型只能通过付费的API方式进行访问。

但是,这些模型的性能是否如此优秀以至于值得人们以付费方式来使用呢?

这篇文章的目的是将这些新模型的性能与开源模型的性能进行实证比较。我们将使用数据检索工作流进行比较;在该工作流中,必须在给定用户查询的情况下找到语料库中最相关的文档。

我们的语料库将是《欧盟人工智能法案》(https://artificialintelligenceact.eu/),该法案目前正处于最后的验证阶段。这个语料库的一个有趣的特点是,除了是世界上第一个人工智能的法律框架外,它还有24种语言版本。这使得可以比较不同语言族的数据检索准确性。

本文将采取以下两个主要步骤:

  • 从多语言文本语料库生成自定义合成问答数据集;
  • 在这个自定义数据集上比较OpenAI和当今最先进的开源嵌入模型的准确性。
在Github存储库(https://github.com/Yannael/multilingual-embeddings)中提供了重现本文中呈现的所有结果的代码和相关数据。请注意,以《欧盟人工智能法案》为例,本文所遵循的方法可以适用于其他数据语料库。

2.生成自定义问答数据集

让我们首先从生成自定义数据的问答数据集(Q/a)开始,该数据集将用于评估不同嵌入模型的性能。生成自定义问答数据集的好处有两个。

首先,它通过确保数据集没有成为嵌入模型训练的一部分来避免偏差,这可能发生在参考基准,如MTEB:https://huggingface.co/spaces/mteb/leaderboard)上。

其次,它允许根据特定的数据语料库进行评估,例如在检索增强应用程序(RAG)的情况下,这可能是相关的。

我们将遵循Llama Index在其文档(https://blog.llamaindex.ai/fine-tuning-embeddings-for-rag-with-synthetic-data-e534409a3971)中建议的简单流程。语料库首先被分成一组组的块。然后,对于每个块,通过大型语言模型(LLM)生成一组合成问题,使得答案位于相应的块中。该过程如下所示:

图片图片

通过Llama Index方法为你的数据生成问答数据集

使用LLM的数据框架(如Llama Index)实现上述策略非常简单。使用高级函数可以方便地加载语料库和分割文本,如以下代码所示:

from llama_index.readers.web import SimpleWebPageReader
from llama_index.core.node_parser import SentenceSplitter
language = "EN"
url_doc = "https://eur-lex.europa.eu/legal-content/"+language+"/TXT/HTML/?uri=CELEX:52021PC0206"
documents = SimpleWebPageReader(html_to_text=True).load_data([url_doc])
parser = SentenceSplitter(chunk_size=1000)
nodes = parser.get_nodes_from_documents(documents, show_progress=True)

分享说明:转发分享请注明出处。

    热点图讯
    最新图讯
    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司