solr - 规范化 SOLR 记录以进行分片 : _version

solr - 规范化 SOLR 记录以进行分片 : _version_ issues

转载作者：行者123 更新时间：2023-12-02 03:13:37

25

4

作为我的 DSpace 实例的一部分，我有一个 SOLR 存储库，其中包含 1200 万条使用统计记录。某些记录已通过多次 SOLR 升级进行迁移，不符合当前架构。其中 500 万条记录缺少我的架构中指定的唯一 ID 字段。

DSpace 系统提供了一种机制，可以使用以下代码将旧的使用统计记录分片到单独的 solr 分片中。

DSPACE 分片逻辑:

        for (File tempCsv : filesToUpload) {
            //Upload the data in the csv files to our new solr core
            ContentStreamUpdateRequest contentStreamUpdateRequest = new ContentStreamUpdateRequest("/update/csv");
            contentStreamUpdateRequest.setParam("stream.contentType", "text/plain;charset=utf-8");
            contentStreamUpdateRequest.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
            contentStreamUpdateRequest.addFile(tempCsv, "text/plain;charset=utf-8");

            statisticsYearServer.request(contentStreamUpdateRequest);
        }
        statisticsYearServer.commit(true, true);

当我尝试运行此流程时，我收到一条错误消息，因为每条记录都缺少唯一 ID 字段，并且该流程删除了 500 万条记录。

我尝试替换这 500 万条记录，以便强制在每条记录上创建唯一的 id 字段。这是我正在运行以触发该更新的代码。查询 myQuery 会迭代数千条记录的批处理。

我的记录修复过程:

    ArrayList<SolrInputDocument> idocs = new ArrayList<SolrInputDocument>();
    SolrQuery sq = new SolrQuery();
    sq.setQuery(myQuery);
    sq.setRows(MAX);
    sq.setSort("time", ORDER.asc);

    QueryResponse resp  = server.query(sq);
    SolrDocumentList list = resp.getResults();

    if (list.size() > 0) {
        for(int i=0; i<list.size(); i++) {
            SolrDocument doc = list.get(i);
            SolrInputDocument idoc = ClientUtils.toSolrInputDocument(doc);
            idocs.add(idoc);
        }           
    }

    server.add(idocs);
    server.commit(true, true);
    server.deleteByQuery(myQuery);
    server.commit(true, true);

运行此过程后，存储库中的所有记录都会分配一个唯一的 ID。我接触过的记录也有一个 _version_ 字段。

当我尝试重新运行上面包含的分片进程时，我收到与 _version_ 字段值相关的错误，并且进程终止。如果我尝试显式设置 version 字段，我会收到相同的错误。

这是我在调用分片进程时遇到的错误消息:

Exception: version conflict for e8b7ba64-8c1e-4963-8bcb-f36b33216d69 expected=1484794833191043072 actual=-1
org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException: version conflict for e8b7ba64-8c1e-4963-8bcb-f36b33216d69 expected=1484794833191043072 actual=-1
    at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:424)
    at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:180)

我的目标是修复我的记录，以便我可以运行 DSpace 提供的分片进程。您能否建议我应该采取任何其他措施来修复这些记录？

最佳答案

SolrLogger 中的分片代码将记录复制到新的空核心中。问题在于，从 DSpace 3 开始，DSpace 使用统计文档包含一个 _version_ 字段，并且该字段在分片期间包含在副本中。

当包含 _version_ 字段的文档添加到 Solr 索引时，这会触发 Solr 的开放式并发功能，该功能会检查索引中是否存在具有相同唯一 ID 的现有文档。逻辑大致如下(参见 http://yonik.com/solr/optimistic-concurrency/ ):

_version_ > 1: Document version must exactly match

_version_ = 1: Document must exist

_version_ < 0: Document must not exist

_version_ = 0: Don't care (normal overwrite if exists)

包含_version_值> 1的使用统计文档因此使Solr在新创建的年份分片中查找具有相同唯一ID的现有文档；但是，显然当时没有这样的文档，因此存在版本冲突。

分片期间的复制过程会创建临时 CSV 文件，然后将其导入到新核心中。幸运的是，可以使用skip参数告诉Solr的CSV更新处理程序从导入中排除特定字段:https://wiki.apache.org/solr/UpdateCSV#skip

像这样更改分片代码

//Upload the data in the csv files to our new solr core
ContentStreamUpdateRequest contentStreamUpdateRequest = new ContentStreamUpdateRequest("/update/csv");
contentStreamUpdateRequest.setParam("stream.contentType", "text/plain;charset=utf-8");
+ contentStreamUpdateRequest.setParam("skip", "_version_");
contentStreamUpdateRequest.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
contentStreamUpdateRequest.addFile(tempCsv, "text/plain;charset=utf-8");

跳过_version_字段，从而禁用乐观并发检查。

这在 https://jira.duraspace.org/browse/DS-2212 中进行了讨论拉取请求位于 https://github.com/DSpace/DSpace/pull/893 ;希望这将包含在 DSpace 5.2 中。

关于solr - 规范化 SOLR 记录以进行分片 : _version_ issues，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26941260/

25

4

0

文章推荐： java - 比较包含两个数字的类

文章推荐： vba - 将 "cells"与 "range"一起使用

文章推荐： java - 未导入支持库

文章推荐： audio - 如何拦截 Firefox 音频/声音输出并将效果应用到

solr - Solr 复制和 Solr 云有什么区别？
我支持 Rails 项目，其中包含 Rails 应用程序和 Solr 的附加实例。我的环境:rails 3.2.1、ruby 2.1.2、sunspot 2.1.0、Solr 4.1.6。问题:
solr - Solr 添加和 Solr 提交之间的区别
在 Solr 中添加和提交之间的根本区别是什么？我们已经阅读了几个文档，但现在仍然非常清楚它到底做了什么，以及何时使用 Add 和何时使用 Commit？据我了解，Add 将数据添加到 solr 数
solr - Solr 复制和 solr 分片哪个更好？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 5年前关闭。 Improve t
solr - SOLR 建议器中的上下文过滤
我们可以在 solr suggester 响应中添加上下文而不是上下文过滤吗？我有 5 个不同的类别。每个类别都有不同的名称。我的建议者在名字上工作。我可以得到如下输出吗？ { "term" :
solr - solr 如何与自动升温一起工作？
在 solrconfig.xml 中，filterCache(或 queryResultCache 等)的 'autowarmCount' 表示当新的搜索者到来时将复制多少缓存实体。但是，如果我在 s
solr - 单核或多核 Solr
我们计划部署 Solr 来搜索从通用 CMS 平台发布的多个站点。每种语言都有单独的网站，其他语言的内容主要是从英语翻译过来的。搜索要求包括 – 关键字突出显示、建议(“你是什么意思？”)、停用词
solr - Solr 多核中的最大核心数
我们有一个系统，使用户能够创建应用程序并在其应用程序上存储数据。我们希望将每个应用程序的索引分开。我们为每个应用程序创建一个核心，并在用户进行查询时搜索给定的应用程序。由于应用程序之间没有任何关系，因
solr - solr 是否使用余弦相似度？
我写了一个小型搜索引擎作为我的每周项目。它基于查询向量和文档向量之间的余弦相似度。向量是使用 tf-idf 标记的疮计算的。我开始了解 Apache Solr，它是一个全文搜索引擎。我的问题是 so
solr - 使用/solr/update 建立索引时如何提升 SOLR 文档
为了索引我的网站，我有一个 Ruby 脚本，它反过来生成一个 shell 脚本，将我的文档根目录中的每个文件上传到 Solr。 shell 脚本有很多行，如下所示: curl -s \ "htt
solr - Solr 字段类型如何在多个内核之间共享？
是否可以分享Solr fieldType s 定义于 schema.xml多核之间？我在 Solr 中有许多核心，发现自己正在重新定义 fieldType s 仅基于内置过滤器和分词器。例如
solr - 如何使用命令行停止 solr
我想通过命令停止 solr 所以如果找到这篇文章 http://rc98.net/solrinit echo "Stopping Solr" cd $SOLR_DIR
solr - solr 守护进程
我想用守护进程运行 solr。我在另一篇文章中看到有一个可以运行的 init.d 脚本，但它在我的 ubuntu 环境中似乎有问题。每当我尝试使用/etc/init.d/solr start 运行脚本
solr - solr 搜索结果中的网址和电子邮件
我有一个 solr 搜索返回上下文突出显示结果，显示网址和电子邮件，句点后带有空格 - 例如“www.google.com”或“email@google.com”无论如何要关闭它，以便它们正常显示？谢
solr - SOLR 中的多值属性分组
我遇到了一个问题，其中一个列是多值的。例如:值可以是 (11,22) (11,33) (11,55) , (22,44) , (22,99) 我想执行一个分组操作，它将产生: 11 : 计数 3 22
solr - Solr 查询的不同结果
这个问题在这里已经有了答案: How to select distinct field values using Solr? (6 个回答) 6年前关闭。我有如下 solr 索引数据 7920
solr - Solr 高亮也可以指示原始字段中返回片段的位置或偏移量吗？
背景使用 Solr 4.0.0。我已经索引了一组示例文档的文本并启用了术语向量，因此我可以使用快速向量突出显示为了突出显示，我正在使用带有句子边界的 Break Iterator Boundar
solr - Solr 的分层分面搜索示例
题我在哪里可以找到一个完整的示例，该示例展示了从索引文档到检索搜索结果的分层分面搜索是如何工作的？我的研究到目前为止 Stackoverflow 有一些帖子，但它们都只针对分层分面搜索的某些方面；
solr - Solr 入门
我正在尝试开始使用 Apache Solr，但有些事情我不清楚。通读tutorial ，我已经设置了一个正在运行的 Solr 实例。我感到困惑的是 Solr 的所有配置(架构等)都是 XML 格式的。
solr - Solr 中的计数
我将以下文档存储在 Solr 中: doc { id: string; // this is a unique string that looks like an md5 result
solr - SOLR 中的嵌套字段
我有一个关于在 solr 中创建嵌套字段的可能性的问题。谷歌搜索告诉我一些关于组的信息，但我认为它只是为了结果？我想要的是这样的结构: 类别1 项目 1 (9) 项目 2 (8) 类别2 项目 3

首页

博学

6Ren·AI

商城

solr - 规范化 SOLR 记录以进行分片 : _version_ issues