gpt4 book ai didi

solr - 如何使用nutch和索引特定标签解析html到solr?

转载 作者:行者123 更新时间:2023-12-05 00:33:10 27 4
gpt4 key购买 nike

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:

<div id=something>
me specific tag
</div>

实际上,我想在此页面中向 solr(某物)添加一个具有“我的特定标签”值的字段。

任何的想法?

最佳答案

我为您想要的类似内容制作了自己的插件。
用于将 NutchDocument 映射到 SolrDocument 的配置文件位于 $NUTCH_HOME/conf/ solrindex-mapping.xml .您可以在此处添加自己的标签。但是您仍然必须在某处填写自己的标签。

以下是插件的一些提示:

  • 阅读 http://wiki.apache.org/nutch/WritingPluginExample ,在这里您可以找到如何非常简单地制作您的插件
  • 在您的插件中扩展 解析过滤器 索引过滤器。
  • 在 YourParseFilter 中,您可以使用 NodeWalker 找到您的特定 div
  • 您解析的信息像这样放入页面元数据中
    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
  • 在 YourIndexingFilter 中,将页面 (page.getMetadata) 中的元数据添加到 NutchDocument
    doc.add("your_specific_tag", value);
  • 最重要的!!!!!
  • your_specific_tag 到以下文件:
  • Solr 配置文件 schema.xml (并重新启动 Solr)

  • 字段名称="your_specific_tag"type="string"stored="true"indexed="true"
  • 纳奇 配置文件 schema.xml (不知道是不是真的需要)
  • 纳奇 配置文件 solrindex-mapping.xml

  • field dest="your_specific_tag"source="your_specific_tag"

    关于solr - 如何使用nutch和索引特定标签解析html到solr?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12338967/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com