gpt4 book ai didi

Solr:发布的文件数不等于 maxDoc

转载 作者:行者123 更新时间:2023-12-04 23:01:06 25 4
gpt4 key购买 nike

如果这个问题已经在某处得到回答,我提前道歉 - 我找不到它。

我对 Solr 比较陌生,并且一直按照 tutorial 给出的说明进行操作。使用默认的 SimplePostTool 从命令行索引我的数据。我目前在测试中使用 Solr 4.0。

首先,我通过查询删除索引中的所有内容。然后我将 SimplePostTool 指向几个目录并索引数万个文件。就我而言,就目前而言,每个 XML 文件都是一个单独的文档。某些文档可能具有相同的唯一 key ID。如果重要的话,XML 文档的大小范围为 4-60kB。

SimplePostTool 完成后返回并显示 26,541 个文件已编入索引。然后我查看 Admin collection1 页面,看到 Num Docs = 20,985 和 Max Doc = 22,921。

我见过other posts讨论 Num Docs 和 Max Doc 之间的差异(我觉得我充分理解覆盖行为)。我的问题是为什么 SimplePostTool 报告的索引文档数量与 Solr 管理页面给出的 Max Doc 不匹配?

最佳答案

你有不同数量的 numDocs 和 maxDoc 的原因:

numDocs 表示索引中可搜索文档的数量(并且会大于 XML 文件的数量,因为有些文件包含多个)。 maxDoc 可能更大,因为 maxDoc 计数包括尚未从索引中删除的逻辑删除文档。您可以根据需要一遍又一遍地重新发布示例 XML 文件,并且 numDocs 永远不会增加,因为新文档将不断替换旧文档。
发件人:Solr official Tutorial .这适用于旧版本。

您可以通过优化索引来删除逻辑删除的文件 ->

关于Solr:发布的文件数不等于 maxDoc,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14920439/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com