gpt4 book ai didi

indexing - Apache solr 频繁添加/编辑/删除记录

转载 作者:行者123 更新时间:2023-12-04 05:41:01 24 4
gpt4 key购买 nike

我正在考虑使用 Apache Solr。在我的数据库中,我将有大约 10.000.000 条记录。我将使用它的最坏情况有大约 20 个可搜索/可排序的字段。我的问题是这些字段在白天可能会频繁更改值。例如,在我的数据库中,我可能会同时更改 10000 条记录的某些字段,这可能每天发生 0、1 或 1000 次等。关键是每次我更新数据库中的值时,我都希望它被更新在 solr 中,所以我每次都可以搜索更新的数据。

对于那些使用过 solr 的人,在这些卷中重新索引的速度有多快?这个更新(从我读的内容中删除和读取记录)和它的索引是否会花费 5 秒、5 分钟、1 小时,什么?考虑它将在一个好的服务器上运行。

最佳答案

不实际尝试很难判断。但是,您需要知道 Lucene 和 Solr 目前不支持单个文档更新(尽管正在进行一些工作 https://issues.apache.org/jira/browse/LUCENE-3837 ),这意味着即使您只更新了一个字段,您也需要重新索引整个记录。

此外,Lucene 和 Solr 在执行批量更新方面比单文档更新要好得多。为了解决这个问题,Solr 有一个不错的 commitWithin允许 Solr 将单个更新组合在一起以提高吞吐量的参数。

你应该谨慎地使用这个数字,但我经常在非常传统的硬件上以 ~5000 docs/s 的吞吐量创建数百万个文档(~30 个小字段)的索引。

关于indexing - Apache solr 频繁添加/编辑/删除记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11247625/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com