gpt4 book ai didi

performance - 索引大小对搜索速度的影响(存储或不存储)

转载 作者:行者123 更新时间:2023-12-01 01:22:50 24 4
gpt4 key购买 nike

现在,我们使用 Solr 作为全文索引,其中文档的所有字段都被索引但不存储。
有几百万个文档,索引大小为 50 GB。平均查询时间约为 100 毫秒。

要使用突出显示等功能,我们正在考虑:附加存储文本。但是,这可能会使索引文件的大​​小加倍。

我知道索引大小和查询时间之间绝对没有(线性)关系。在因子 10 上增加文档导致查询时间几乎没有差异。

但总而言之,系统(Solr/Lucene/Linux/...)必须处理更多信息——索引文件(例如)基于更多的 I 节点,依此类推。

所以我敢肯定,与索引大小相关的查询时间会受到影响。 (但是:这很明显吗?)

第一:
你觉得,我说得对吗?
您在有/没有存储文本的索引大小和搜索速度方面有任何经验吗?
通过存储文档来炸毁索引是否明智和合理?

第二:
您知道 Solr/Lucene 如何处理存储的文本吗?也许在单独的文件中? (这样对不需要存储文本的简单搜索没有影响!?)

谢谢你。

最佳答案

是的,如果您存储大字段,索引会增长是绝对正确的,但是如果您想突出显示它们,则没有其他方法。我认为速度不会降低那么多,可能只是因为您需要下载更多数据检索结果,但这并不重要。

关于lucene索引格式和索引内的不同文件你可以看看here :存储的字段存储在特定文件中。

关于performance - 索引大小对搜索速度的影响(存储或不存储),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8821052/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com