python - 什么是存储 NLP 嵌入的好方法(nparrays 加信息)-6ren

python - 什么是存储 NLP 嵌入的好方法(nparrays 加信息)

转载作者：行者123 更新时间：2023-12-02 09:47:10

27

4

关闭。这个问题需要更多focused .它目前不接受答案。

想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post .

11 个月前关闭。

Improve this question

我有巨大的文本数据集(500.000+ 文档)，我想为文档中的所有句子或段落存储嵌入。嵌入是一个包含 768 个条目的 numpy 数组。

我知道可以轻松地将 numpy 数组写入磁盘，但我还需要为这些嵌入存储附加信息，即它们代表哪个句子/段落以及该句子出现在哪个文档中。
我考虑将所有这些信息存储在(PostgreSQL)数据库中，但是我担心搜索向量/嵌入可能会很慢。该应用程序是相似性搜索，因此可以找到与查询最相似的向量。
存储这些向量及其相应信息的最佳方法是什么？在这种情况下(document_ID、sentence_as_string、sentence_embedding)存储 python 元组是否有效？ postgres 数据库可以完成这项工作吗？
我还考虑过将所有嵌入存储为 .npy 文件中的 numpy 矩阵并仅存储
嵌入数据库的行号。这意味着将所有嵌入加载到内存中，但我觉得这可能是性能最好的。是“乱”吗？是否有关于存储 numpy 数组和附加信息的最佳实践？

编辑(附加信息):
我有几个数据集，比如 Enron Corpus ，我想将其拆分为句子或段落。我们称它们为单位。对于每个单位，我想计算一个 sentence embedding .这些向量有 768 维。因为我想搜索最相似的向量，所以我需要计算所有向量之间的余弦相似度。我还想计算所有向量和搜索查询嵌入之间的余弦相似度，这使得所有向量之间的比较成为必要。
现在我的问题是如何有效地存储这些信息。该应用程序似乎适合经典的关系数据库方案。一个文档由几个单元组成，每个单元有一个文本域。我想还可以将 768 维向量作为条目存储在数据库中，因此一个单元也可以存储其嵌入。但是，我担心在数据库中计算余弦相似度可能会比将所有嵌入都存储在内存中非常慢。但是当我将所有嵌入存储为一个 numpy 数组并将它们加载到内存中时，我丢失了关于哪个单元产生哪个嵌入的信息。所以我的问题是，如何最好地存储如此大量的 768 维向量及其相应的信息。
计算嵌入是昂贵的。我只想做一次。所以工作流程是:

将所有文档拆分为单元(文本，元信息为文本)

计算所有单元的嵌入(Numpy-Arrays)

存储它们

能够搜索它们

存储它们让我头疼。

进一步的努力:
我已经设置了没有嵌入的数据库。之后我研究了如何在 postgres-DB 中存储一个 numpy 数组。显然，必须将其序列化为 JSON。这使得计算数据库内的余弦相似度几乎不可能(或至少慢得不可能)AFAIK。我不认为现在将我所有的嵌入放入 postgresDB 是值得的。似乎也有一些关于使用嵌入的谷歌类(class)，我会检查一下。

最佳答案

[对于 Python] 在运行时将所有嵌入存储在内存中并不是一个好主意。相反，在计算嵌入后，将它们保存到文件中，每当您想搜索“最相似的短语”时，一次遍历文件一行，计算余弦相似度分数，并跟踪最大分数以及与该嵌入对应的句子(您可以将文件构建为 json)。以这种方式这样做应该允许程序能够搜索所有嵌入，而无需将每个嵌入都加载到内存中。

关于python - 什么是存储 NLP 嵌入的好方法(nparrays 加信息)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59027867/

27

4

0

文章推荐： sql - 集合运算符的 PostgreSQL 实现

文章推荐： sql - 在 SELECT 语句中动态设置变量

php - MySQL Join 加 Count 加 Sum
这是一个复杂的查询，我希望用一条语句实现它，而不是必须在 PHP 中处理数组值。要达到预期的输出: User Jobs Total John D. 5 $1245.67 Ma
php - 如何使用 CASE 加 JOIN 加 GROUP BY 到单个 MySQL 语句中
SELECT B. * , SC.cate_name, ( CASE WHEN special_offer_type = 'Fixed Value' THEN B.price - special_o
c# - Basic Booksleeve 加 Protobuf-net 加 Lists/SortedSets，实现？
关于将 booksleeve 与 protobuf-net 结合使用，我有一些相当基本的问题。现在我已经实现了一个单例类来管理连接，所以我多次重复使用与 recommended 相同的连接。 .现在我
Jquery 加/减增量器
我想要一个客户端加/减系统，用户可以单击加号，值会增加 1，减号，值会减少 1，该值永远不应该低于零，并且应该从 0 开始.有没有办法在 jquery 中简单地做到这一点？所有 jquery 插件都会
javascript - 加/减数量按钮的问题
我正在使用加号和减号按钮更新我的产品数量，这很有效，但我的问题是因为我在一个容器中有多个产品，它正在更新所有产品的数量。这是代码:
c++ - 加、减和比较压缩整数
我需要在大小相等的小整数数组上做大量简单的代数运算。这些操作仅包括三种:(i) 添加数组和 (ii) 按元素减去数组，以及 (iii) 比较一个数组中的所有元素是否不小于/大于另一个数组中的对应元素。
Javascript 加/减问题
我对 javascript 很陌生，但我需要一种 JS 方式来在单击按钮时增加/减少输入字段中的值。我已成功将值设置为显示 0，但当我单击“添加”按钮时，它不会增加。以下是 html 和 JS 代码
javascript - 加/减数字
我可以在输入字段中添加/减去一个数字。但是，我希望结果显示在中而不是在input中字段。我尝试使用innerHTML自己完成它但无法让它发挥作用。 $(function() { $('.min
jquery 加/减选择器
我的页面上有一个加号/减号 jquery 选择器。当页面加载或数字达到 1 时，我希望减号按钮变灰以模拟非事件状态。这是我的代码和 fiddle https://jsfiddle.net/pgxvhs
python - 加/减十六进制
我如何加/减用户输入的十六进制数？喜欢: basehex = input() sechex = input() sum = hex(basehex - sechex) print(sum) 我得到:
python简单实现矩阵的乘，加，转置和逆运算示例
本文实例讲述了python简单实现矩阵的乘，加，转置和逆运算。分享给大家供大家参考，具体如下：使用python完成矩阵的乘，加，转置和逆： ?
php - ±(加/减字符)转换为黑色问号
我输入的一些文本包括几个上下箭头(↑ 和 ↓)，以及一个加号/减号 (±)。这些特殊字符以 HTML ASCII 输入:↑ ↓ ±。在 POST 上，HTML 在保存到 MySQL 表之前使用 ht
delphi - 直接显示捕获引脚配置运行时实时游戏玩家可移植 2 加
我正在尝试配置 Live Gamer Portable 2 Plus 的输出引脚以降低帧速率。通过 GraphStudioNext，我可以通过捕获引脚访问配置并更改帧速率。但是，当我通过 API 在
windows - 如何在两个日期和时间时间戳之间执行算术运算(加，减)？
我正在尝试使用批处理文件创建任意时间。我试图从我的代码中减去设置值(例如1天，1个月和2000年)，以显示系统时间减去前面所述的设置值。对于小时和分钟，我要减去10小时和10分钟(在代码中显示为不同的
c - ATmega8 加/减计数器计数不正确
我想建立一个 5 位向上/向下计数器。当我能让模拟工作时，我会更乐意购买零碎的东西来构建它。到目前为止，我使用的是 ATmega8，但坦率地说，只要组件相当便宜，任何解决方案都适合我。我在网上找到了
javascript - AngularJS 加/减切换
使用 ng-repeat 时在数字输入字段上添加加/减切换的最佳方法是什么我这样试过，但没用: - + vm.plus = f
MySQL:UNION 加 JOIN
我正在尝试弄清楚如何将 UNION 与相同的 JOIN 一起使用，而不是陷入 #2014 - 命令不同步。我创建了四个简单的表格并为它们编写了简化的代码。主要想法是获得名字中带有“最佳”字样的每把剑
javascript - js中的数学运算(加/减)
这个问题已经有答案了: Is floating point math broken? (33 个回答) 已关闭 9 年前。我有一个简单的函数，应该生成 1000 个不同的元素: var start
html - 在一个类中使用多个 +(加)运算符是否合法？
我目前正在编写一个响应式设计，我正处于移动导航折叠的地步。为此，我创建了两个 div 和一个 ul。 ul 包含我的 nav 元素，而 div 将显示移动设备和平板电脑下拉菜单的导航图像。 HTML
javascript - Woocommerce 加/减数量按钮更改值但实际上不起作用
我为 woocommerce 单个产品页面创建了一个加/减数量按钮。创建了一个新的数量-input.php " min="" max="" name="" value="" ti

首页

博学

6Ren·AI

商城

python - 什么是存储 NLP 嵌入的好方法(nparrays 加信息)