gpt4 book ai didi

solr - 如何在不更新整个文档的情况下进行 Solr Delta 导入?

转载 作者:行者123 更新时间:2023-12-04 17:46:48 27 4
gpt4 key购买 nike

我想做 Solr Delta Import,但我不想更新整个文档。有什么方法可以指示 solr 在导入增量时仅更新特定字段?

最佳答案

理论

此功能称为 in-place update .只有当要更新的字段满足这些条件时,才会执行就地更新:

  • 非索引(indexed="false")
  • 非存储(stored="false")
  • 单值 (multiValued="false")
  • 数字 docValues (docValues="true") 字段

换句话说这个特性是基于一个特殊的数据结构DocValues所以你不能在没有整个文档重新索引的情况下更新非 DocValues 字段。您可以在以下 jira 问题中阅读有关可更新 DocValues 的更多详细信息:

练习

这是一个通过 SolrJ 的例子:

HttpSolrClient client = new HttpSolrClient("http://localhost:8983/solr");
SolrInputDocument doc = new SolrInputDocument();
doc.addField("id","1");
Map<String,Object> fields = new HashMap<>();
fields.put("inc", "-1");
doc.addField("count", fields);
client.add(doc);
client.close();

或通过 CURL:

curl http://localhost:8983/solr/library/update -d '
[
{"id" : "1",
"count" : {"inc":"-1"}
}
]'

字段计数声明为:

<field name="count" type="int" indexed="false" stored="false" docValues="true"/>

请注意如果字段配置错误,将应用“原子更新”。

“原子更新”

您可以不受任何限制地“更新”文档中的任何字段 "Atomic Updates" . Atomic Update 实际上并没有进行就地更新——它删除旧文档,然后一次性索引一个应用了更新的新文档。在引擎盖下,它要求您的模式中的所有字段必须配置为已存储,并将字段复制为未存储(请记住嵌套文档),并尝试从存储的字段重建整个文档。如果出现任何配置错误,您将在没有任何通知的情况下丢失大部分文档。一般来说,原子更新有以下缺点:

  • 重新索引整个文档并将它们传递给所有分析链会消耗大量 CPU 周期
  • 通过存储原始文档数据增加索引大小
  • 新的索引段被创建,旧文档在现有段中被标记为已删除,导致段合并策略启动并使用额外的 CPU 并增加 I/O 压力
  • 最重要的是,在提交使更改可见后,必须重新打开搜索。这会删除所有累积的过滤器缓存、文档缓存和查询结果缓存
  • 索引提交,这使得更改可见,删除过滤器和字段缓存,因为额外的段被添加到索引;
  • 在 block 索引结构的情况下,必须重新索引整个文档 block ,显着增加开销

关于solr - 如何在不更新整个文档的情况下进行 Solr Delta 导入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48086498/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com