Solr numDocs 溢出-6ren

Solr numDocs 溢出

转载作者：行者123 更新时间：2023-12-02 00:25:52

27

4

我们正在运行 Solr 来索引大量数据，但遇到了一个非常有趣的问题，我无法在任何地方找到任何帮助。

似乎 Solr 使用带符号的 32 位整数来计算索引中当前的文档数。我们刚刚达到了这个数字，我们的 Solr 统计页面显示如下:

numDocs : -2116382092
maxDoc : -2114669444

Solr 似乎仍然能够很好地索引传入的数据，但是当我们搜索时，我们得到一个 NegativeArraySizeException(请参阅下面的堆栈跟踪)

我们假设错误和溢出是相关的(我相信这是一个合理的假设)。Solr 文档中没有任何内容，到目前为止我还没有找到关于该主题的任何相关帮助。该问题的解决方案很可能是删除索引 block 以将大小减小到 MAX_INT 以下，但我们不确定这是否有效，因为 Solr 很可能必须执行搜索才能找到要删除的文档。

我想这与其说是一个问题，不如说是在陈述事实，但我想知道是否还有其他人遇到过这个问题，如果遇到过，您是如何解决的？

 java.lang.NegativeArraySizeException
    at org.apache.solr.search.DocSetCollector.<init>(DocSetHitCollector.java:47)
    at org.apache.solr.search.SolrIndexSearcher.getDocSetNC(SolrIndexSearcher.java:627)
    at org.apache.solr.search.SolrIndexSearcher.getPositiveDocSet(SolrIndexSearcher.java:563)
    at org.apache.solr.search.SolrIndexSearcher.getDocSet(SolrIndexSearcher.java:592)
    at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:903)
    at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:884)
    at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:341)
    at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:182)
    at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:195)
    at    org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:131)
    at org.apache.solr.core.SolrCore.execute(SolrCore.java:1316)
    at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:338)
    at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:241)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206)
at org.jboss.web.tomcat.filters.ReplyHeaderFilter.doFilter(ReplyHeaderFilter.java:96)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206)
    at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:235)
    at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191)
    at org.jboss.web.tomcat.security.SecurityAssociationValve.invoke(SecurityAssociationValve.java:190)
    at org.jboss.web.tomcat.security.JaccContextValve.invoke(JaccContextValve.java:92)
    at     org.jboss.web.tomcat.security.SecurityContextEstablishmentValve.process(SecurityContextEstablishmentValve.java:126)
    at     org.jboss.web.tomcat.security.SecurityContextEstablishmentValve.invoke(SecurityContextEstablishmentValve.java:70)
    at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:127)
    at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102)
    at org.jboss.web.tomcat.service.jca.CachedConnectionValve.invoke(CachedConnectionValve.java:158)
    at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109)
    at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:330)
    at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:829)
    at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process(Http11Protocol.java:598)
    at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:447)
    at java.lang.Thread.run(Thread.java:662)

最佳答案

经过一番努力，我们设法解决了这个问题。

我们做了什么以及我们如何解决它

首先，我们运行 CheckIndex 来验证所有段及其自身的索引是否处于良好状态并且没有损坏。这也让我们知道我们有足够的 RAM 可以稍后在更大的段上做一些真正的工作。正如所料，CheckIndex 的结果没有问题。 CheckIndex 在 Lucene 库中可用。

第二步是将索引分成两部分(而不是一半)。在我们的例子中，我们有一个由大约 17 亿个文档组成的巨大片段，我们只是将该片段从源索引中分离出来并创建了两个新索引，一个是大片段，另一个是我们拥有的其余 20 多个片段之一。为此，我们使用了同样来自 Lucene 库的 IndexSplitter。

拆分索引需要 Lucene 3.0.x，而我们只安装了 Lucene 2.9.3(与 Solr 1.4.1 捆绑在一起)。我们下载了一个单独的 Lucene 3.0.3 实例来使用 IndexSplitter。创建的两个新索引与我们的 Lucene 版本不兼容，因此我们最终不得不将 Solr 安装中的 Lucene 升级到 2.9.4，它可以读取 3.0.x 索引。

然后我们引导 Solr 指向每个新索引，一次一个。这次 numDocs 低于 MAX_INT，我们可以运行删除语句。在对两个新索引执行此操作后，我们简单地使用 IndexMerge 工具将它们合并在一起，同样在 Lucene 库中，剩下的内容最终得到一个健康的 15 亿文档索引，这将持续我们另外一对几个月:)这里吸取的教训是在我们达到上限之前运行删除查询。

所有 Lucene 专家的问题:

如果您在达到 MAX_INT 后继续索引，实际会发生什么？我们要覆盖数据吗？如果是，哪些数据最有可能被覆盖？

关于Solr numDocs 溢出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8938917/

27

4

0

文章推荐： reporting-services - 减少 SQL Server Report Builder 3.0 中的间距

文章推荐： java - 如何使用 java 中的 ActionListener 执行多个操作？

文章推荐： Java:WAITING鼠标输入(单击)

html - 溢出 y 隐藏中断溢出 x 可见
我有一个 div(蓝色框)，它在父元素(红色框)内的页面上绝对定位，我需要将 overflow-y 设置为隐藏，以便它强制 Y 轴上的溢出内容切掉了，但我希望任何溢出-x 的内容都可见。 HTML:
CSS:溢出-y:滚动；溢出-x:可见
请参阅以下帖子以获取突出显示我的问题和可能的解决方案的图片: CSS overflow-y:visible, overflow-x:scroll 但是，当您实际移动滚动条时，此策略会中断。在建议的实现
CSS 溢出-y :visible, 溢出-x:滚动
我在搜索中看到过几个类似的问题，但要么没有正确回答问题，要么没有给出答案。所以，我再问一次。 .parent { overflow-y:scroll; overflow-x:visible; wid
html - CSS 溢出-y : visible, 溢出-x: 隐藏
我读过这个CSS overflow-x hidden and overflow-y visible (以及很多其他帖子)但我无法在我的具体情况下使用它。我正在使用 slick-slider并想添加下
apache-spark - Spark : Difference between Shuffle Write, Shuffle 溢出(内存)，Shuffle 溢出(磁盘)？
我有以下 Spark 作业，试图将所有内容保留在内存中: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(St
c - 溢出
我有疑问两个16位的值加上最大值，16位机会不会溢出？我会详细说明 unsigned short a; unsigned short b; unsigned long c; c=(unsigne
CSS 溢出 : hidden
我有这个 HTML 和 CSS，但“溢出:隐藏”标签在 Firefox 中不起作用。这让我感到难过...有人知道为什么它不起作用吗？是因为A标签不支持overflow标签吗？ #page_sideba
使用大数时 GMP 溢出
我正在开发一个程序，用于在 C++ 中分解非常大的数字(20 位或更多)，并且正在使用 GMP 来处理溢出问题。我的程序对于大约 10 位或更少的数字运行良好，但是当我向它抛出一个 15 位数字时，它
Silverlight: Canvas 溢出
我创建了一个 Canvas ，并在其中放置了一个StackPanel。 StackPanel是水平的，它接受缩略图图像的列表。 Canvas 具有固定的大小。当我放置的缩略图多于Canvas宽度不能容
c - GArray 溢出
当 g_array_append_val() 时会发生什么或 GLib 中的其他附加/前置函数之一，使 GArray 的长度大于 guint (unsigned int) 所能容纳的长度？文档对此没
css - 溢出-x和溢出之间的区别
overflow-x:hidden 和 overflow:hidden; 有什么区别？我所知道的是overflow-x:hidden;禁用水平滚动，但当我使用它时，它不仅仅适用于 Firefox，所
Solr numDocs 溢出
我们正在运行 Solr 来索引大量数据，但遇到了一个非常有趣的问题，我无法在任何地方找到任何帮助。似乎 Solr 使用带符号的 32 位整数来计算索引中当前的文档数。我们刚刚达到了这个数字，我们的
SQL COUNT 溢出
这是我的查询: 从相似性中选择 COUNT(*)，其中 T1Similarity = 0 或 T2Similarity = 0 结果如下: Msg 8115, Level 16, State 2, L
c - 使用位。溢出
int main(void) { char x1 = 0x81; char x2 = 0x1; int a, b; a = x1
javascript - 溢出:隐藏但让内容自动滚动
我有一个 div，其中的内容通过查询的 append() 定期附加到它。随着内容越来越长，最终会溢出div。我不希望在溢出时出现滚动条，但仍然让内容向上滚动以显示下面的新内容。这可能吗？当我使用 o
ios - UITextField 溢出
我为 UITextField 创建了一个简单的子类，它按预期工作。我遇到的唯一问题是当文本值变得太大时，它会溢出到清除按钮中。我似乎无法找到如何仅更改文本的右侧以具有一些填充而不与清除按钮相交的方法
html - 粘性下拉菜单。 (溢出)
我想要一个包括下拉菜单的粘性导航栏。但是，当我将鼠标悬停在它上面时，下拉菜单没有显示。如果我删除 overflow: hidden;在无序列表中，当我向下滚动时，导航栏设法保持在顶部，但是导航栏是不
html - 溢出:隐藏不能始终如一地工作
我正在研究一些按钮。我想要一个翻转状态，我在一个 div 的图像中有这个，溢出:隐藏以隐藏不活动的状态。它有时有效，但有时看起来像这样: 最奇怪的是，当我尝试使用 Chrome Web Inspect
css - 溢出:隐藏属性不适用于伪类前后
基本上，我正在尝试创建一个六边形形状，它内部有一个圆圈，圆圈的多余部分应该被隐藏。演示:https://codepen.io/AskSaikatSinha/pen/jwXNPJ?editors=110
css - 溢出-y空白空间错误？
这似乎是一个相当常见且不那么奇特的用例，但我以前没有遇到过。我设置了一支笔，但无法在那里复制它，我正在努力找出原因。 Demo Pen 左侧边栏有一个用于元素列表的自定义滚动窗口，但是虽然设置 ove

首页

博学

6Ren·AI

商城

Solr numDocs 溢出