gpt4 book ai didi

java - uniqueKey 生成在 SolrCloud 中不起作用(但如果独立则可以)

转载 作者:行者123 更新时间:2023-11-30 07:09:54 26 4
gpt4 key购买 nike

当相同的应用程序代码在 SolrCloud 中对没有唯一键(应由 SOLR 自动生成)的文档建立索引失败并在独立 SOLR 实例(甚至在云模式下,但从副本之一的 Web 界面)。显然,差异仅存在于客户端(CloudSolrClient 与 HttpSolrClient)和 SOLR URL(Zokeeper 主机名+端口与独立 SOLR 实例主机名和端口)之间。

我正在使用 SOLR 5.1。在云模式下,我有 1 个分片和 3 个副本。 Documentation states :

Schema defaults and copyFields cannot be used to populate the uniqueKey field. You can use UUIDUpdateProcessorFactory to have uniqueKey values generated automatically.

因此,我已将 uniqueKey 字段添加到架构中:

<fieldType name="uuid" class="solr.UUIDField" indexed="true" />
...
<field name="id" type="uuid" indexed="true" stored="true" required="true" />
...
<uniqueKey>id</uniqueKey>

然后我将 updateRequestProcessorChain 添加到我的 solrconfig 中:

<updateRequestProcessorChain name="uuid">
<processor class="solr.UUIDUpdateProcessorFactory">
<str name="fieldName">id</str>
</processor>
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

并将其设为 UpdateRequestHandler 的默认值:

<initParams path="/update/**">
<lst name="defaults">
<str name="update.chain">uuid</str>
</lst>
</initParams>

从副本之一的 Web 界面添加具有 null/缺席 id 的新文档效果很好,就像在我的应用程序中以独立模式(非云)使用 SOLR 时一样。尽管仅当我使用 SolrCloud 并从应用程序添加文档(使用 SolrJ 中的 CloudSolrClient)时,它会失败并显示“org.apache.solr.client.solrj.SolrServerException: org.apache.solr.client.solrj.impl.HttpSolrClient$ RemoteSolrException:文档缺少强制 uniqueKey 字段:id”

所有其他操作(例如 ping 或搜索文档)在任一模式(独立或云)下都可以正常工作。

有人经历过同样的行为吗?这里可能有什么解决方案?

调查(即更多细节):

  1. 在独立模式下显然更新请求是:

    POST standalone_host:port/solr/collection_name/update?wt=json
  2. 在SOLR云模式下,从一个副本的Web界面添加文档时,更新请求为(通过检查Web界面的调用发现):

    POST replica_host:port/solr/collection_name_shard1_replica_1/update?wt=json

在这两种情况下,有效负载类似于:

{
"add": {
"doc": {
.....
},
"boost": 1.0,
"overwrite": true,
"commitWithin": 1000
}
}

使用CloudSolrClient时,出现以下情况(通过调试发现):

  1. 使用 ZK 和一些逻辑,构建副本的 URL 列表,如下所示:

    [http://replica_1_host:port/solr/collection_name/,
    http://replica_2_host:port/solr/collection_name/,
    http://replica_3_host:port/solr/collection_name/]
  2. 此代码称为:

    LBHttpSolrClient.Req req = new LBHttpSolrClient.Req(request, theUrlList);
    LBHttpSolrClient.Rsp rsp = lbClient.request(req);
    return rsp.getResponse();

    第二行失败并出现异常。

如果进一步调试第二行,它最终会调用 HttpClient.execute(来自 HttpSolrClient.executeMethod):

POST http://replica_1_host:port/solr/collection_name/update?wt=javabin&version=2 HTTP/1.1
POST http://replica_2_host:port/solr/collection_name/update?wt=javabin&version=2 HTTP/1.1
POST http://replica_3_host:port/solr/collection_name/update?wt=javabin&version=2 HTTP/1.1

第一个请求返回 400 错误请求,副本 1 在日志中记录“文档缺少强制 uniqueKey 字段:id”。

有趣的是,当我使用 POSTMAN 执行相同的请求(但使用 JSON 而不是二进制负载)时,它起作用了!我在这里做错了什么吗?我认为这肯定是请求的发出方式有问题......

更新:

我使用了本地代理来查看我的应用程序发送的这两个请求的差异,以便了解其中的不同之处。看起来唯一的区别是内容类型。在云模式下,POST 文档的有效负载作为“application/javabin”发送,而在独立模式下,它作为“application/xml; charset=UTF-8”发送。其他一切都一样。第一个请求结果为 400,而第二个请求结果为 200。我认为这可能是 SolrJ/SOLR 错误,因此提交了 ticket for that 。将保持此线程更新。

最佳答案

首先,它在独立模式下工作,因为版本 5.1 中的 HttpSolrClient 以 XML 形式发送有效负载(不包括空值 - 这部分很重要),而 CloudSolrClient 以二进制序列化格式(包含空值)将其作为“application/javabin”发送)。在版本 6.2 中,这两个版本都以二进制序列化格式将有效负载发送为“application/javabin”,因此版本 6.2 中的云模式和独立模式都会出现此问题。

问题的真正原因是为了生成 UUID,该字段必须完全不存在。如果它存在且为空,则跳过 UUID 生成。这就是错误的原因。因此,如果我们使用 SolrInputDocument 来索引我们的文档,那么这很简单 - 我们根本不应该为“id”字段添加值。但是,如果我们使用带有“org.apache.solr.client.solrj.beans.Field”注释的 POJO 会怎么样?我们不能从那里排除一个字段。那就是IgnoreFieldUpdateProcessorFactory发挥作用:

<updateRequestProcessorChain name="uuid">
<!-- Using IgnoreFieldUpdateProcessorFactory because of https://issues.apache.org/jira/browse/SOLR-9493:
can't generate UUID for a field coming as NULL, field must be absent. -->
<processor class="solr.IgnoreFieldUpdateProcessorFactory">
<str name="fieldName">id</str>
</processor>
<processor class="solr.UUIDUpdateProcessorFactory">
<str name="fieldName">id</str>
</processor>
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>

将其放在 solrconfig.xml 中并使用“uuid”updateRequestProcessorChain(如上面的问题所示),一切都像魅力一样工作(“id”字段在 UUID 生成之前从文档中删除)。虽然在这种情况下不可能添加具有自定义 ID 的文档,但这仍然是另一个线程的另一个问题。

关于java - uniqueKey 生成在 SolrCloud 中不起作用(但如果独立则可以),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39401792/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com