gpt4 book ai didi

elasticsearch - 要将meta标签捕获到索引中,正确的Stormcrawler设置是什么?

转载 作者:行者123 更新时间:2023-12-03 01:29:48 25 4
gpt4 key购买 nike

更新:我想通了。见底...但是如果我错过任何事情,请随时纠正我...

对于以下meta-tag中的信息,crawler-conf.yaml(以及其他位置,如果需要)中的正确设置是什么:

<meta name="college" content="artdesign"/>

正确地捕获到字段名称为“学院”或“种子”的索引中?

我看到可能需要设置以下设置,但是尝试了各种设置,但似乎无法捕获数据。

crawler-conf.yaml中:
# lists the metadata to persist to storage
# these are not transfered to the outlinks
metadata.persist:
- _redirTo
- error.cause
- error.source
- isSitemap
- isFeed
- college
- seed

不知道“持久存储”是否意味着要进入索引?
crawler-conf.yaml中的另一个选项是:
# configuration for the classes extending AbstractIndexerBolt
indexer.md.mapping:
- parse.title=title
- parse.keywords=keywords
- parse.description=description
- domain=domain
- college=college
- college=seed

我之前曾问过一个事实,即一段时间以来,“seed”的某些值似乎正在传播到所获取的没有元标记的文档中。该设置为:
  # metadata to transfer to the outlinks
# used by Fetcher for redirections, sitemapparser, etc...
# these are also persisted for the parent document (see below)
# metadata.transfer:
# - seed

因此,正如标题中所问的,我的问题是如何在 crawler-conf.yaml(或任何其他配置)中配置这些选项,以可靠地从该问题顶部列出的meta标记中捕获数据,而又不将其传播到获取的文档中没有那个meta标签?

最佳答案

这是我整理的。上面引用的代码中“parse.title”中引用的“parse”是对src/main/resources/parsefilters.json文件中顶级类下的一个自定义条目的引用(编辑:meta标签的键,然后由该标签检索) 。我去那里并添加了一个
"parse.college": "//META[@name=\"college\"]/@content"
排在那里,但仍在顶级类(class)中。

然后,我将其引用更改为indexer.md.mapping下的college以读取- parse.college=college并重新构建搜寻器并运行它。然后,它开始正确获取<meta name="college" content="artdesign"/>标记并将其发送到索引中的college字段。

关于elasticsearch - 要将meta标签捕获到索引中,正确的Stormcrawler设置是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56526566/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com