gpt4 book ai didi

elasticsearch - 在 nutch 弹性索引器中添加自定义字段和类型

转载 作者:行者123 更新时间:2023-12-02 22:19:23 25 4
gpt4 key购买 nike

我在 nutch 弹性索引器上运行测试运行。我想添加一些自定义字段和自定义类型名(而不是“doc”),它们可以作为索引作业的参数给出。我了解 NutchDocument 是负责设置字段名称和元数据的类,但无法确定 nutch 在何处创建此实例并设置值。或者有没有其他方法可以解决这个问题。请帮忙

最佳答案

您需要(将新字段添加到 ES 索引中)是编写自定义索引过滤器(假设您要添加的字段的值已经通过某些解析过滤器从内容中提取,否则您将需要两者解析过滤器和索引过滤器)。

nutch indexing plugin在上图中,您可以看到一个关于索引过滤器如何在 Nutch 中工作的简单图表。也许 this post会帮助你。底线是您将字段添加到 NutchDocument实现 IndexingFilter 的索引过滤器中的类界面。您添加到 NutchDocument 中的这些字段由相应的插件自动翻译成您的索引后端(Solr/ES)。

至于换type您需要提取/添加 type 的字段字段进入 NutchDocument上课,看看https://github.com/apache/nutch/blob/master/src/plugin/indexer-elastic/src/java/org/apache/nutch/indexwriter/elastic/ElasticIndexWriter.java#L169-L171 . "doc"是提供的默认类型,如果您无法提供。因此,在您的自定义索引过滤器中,您将添加逻辑以动态设置 type ElasticIndexWriter 将使用该字段在索引阶段。

关于elasticsearch - 在 nutch 弹性索引器中添加自定义字段和类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40418712/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com