gpt4 book ai didi

elasticsearch - Stormcrawler-es.status.filterQuery如何工作?

转载 作者:行者123 更新时间:2023-12-03 01:31:19 25 4
gpt4 key购买 nike

我正在使用stormcrawler将数据放入一些Elasticsearch索引中,并且在状态索引中有一堆URL,它们具有各种状态-DISCOVERED,FETCHED,ERROR等。

我想知道是否可以告诉StormCrawler只是爬取https并显示以下状态的URL:DISCOVERED,这样是否可以正常工作。我将es-conf.yaml设置如下:

es.status.filterQuery: "-(url:https* AND status:DISCOVERED)"

那是对的吗? SC如何利用es.status.filterQuery?它是否运行搜索并将该值用作过滤器以仅检索要提取的适用文档?

最佳答案

参见code of the AggregationSpout

how does SC make use of the es.status.filterQuery? Does it run a search and apply the value as a filter to retrieve only the applicable documents to fetch?



是的,它过滤发送到ES分片的查询。例如,这对于处理爬网的子集很有用。

这是一个肯定的过滤器,即文档必须与查询匹配才能被检索;您需要删除-才能执行您描述的操作。

关于elasticsearch - Stormcrawler-es.status.filterQuery如何工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55856753/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com