gpt4 book ai didi

solr - 如何减少生成的 Lucene/Solr 索引的大小?

转载 作者:行者123 更新时间:2023-12-03 07:01:18 25 4
gpt4 key购买 nike

我正在开发一个搜索系统的原型(prototype)。

我在 oracle 中有一个表,其中包含一些字段。我生成的数据看起来很真实。大约 300,000 行。例如:

PaymentNo|Datetime        |AmountEuro|PayersName            |PayersPhoneNo|ReceiversLegal|ReceiversAcc2314     |2015-07-21T15:14|15.63     |Clinton, Barack Anjela|1.918.0060657|Nasa          |5555569778664190000230338   |2015-08-01T15:14|34.87     |Merkel, George Donald |1.653.0060658|PepsiCo       |7777828443194736000

(实际上还有更多列)

oracle 中表的大小 62 MB(Toad 报告)

我将表导入到 Solr 5.2.1(在 Windows 中)。包含数据的索引大小为 88 MB(在磁盘上)。不含数据的索引大小为 67 MB。

我的问题是:我可以减小索引的大小吗?

这些选项已经过测试:减少索引表列的数量。关闭 Solr 中的数据存储。从索引中排除某些行。

我需要额外的机会来减小索引的大小。你知道任何?

最佳答案

您可以使用提供的所有见解 here 。我想分享一些额外的观点。

Solr 会复制数据以提供对索引数据的快速搜索。 solr 的一件重要事情是,它使用不可变的数据结构来存储所有数据。

  • 术语词典:索引术语及其频率和发布列表偏移量的词典。
  • 术语向量:Solr 存储每个索引文档的术语向量。这本质上是每个文档的单独倒排索引。这通常存储量很大。
  • 存储文档:按顺序存储每个文档及其字段。
  • 文档值:将所有文档的字段存储在一起。这类似于数据的列式存储。

如果您不使用 solr 的 solr 突出显示功能,则可以禁用文档级术语向量存储。

此外,Solr 对不同类型的数据使用许多不同的压缩技术。它使用位打包/vint 压缩来发布列表和数值。用于存储字段和术语向量的 LZ4 压缩。它使用FST数据结构来存储术语词典。 FST是Trie数据结构的一种特殊实现。

关于solr - 如何减少生成的 Lucene/Solr 索引的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32009475/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com