gpt4 book ai didi

elasticsearch - 当之前的 "FETCHED"url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么?

转载 作者:行者123 更新时间:2023-12-03 01:30:19 24 4
gpt4 key购买 nike

我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理一个具有先前“获取”的 url 的站点,当下次 SC 到达它时,它已被删除并生成重定向或 404。来自的内容会发生什么旧版本的页面,在“索引”索引中?

我知道“状态”索引中的 url 可能会更改为“重定向”或“获取错误”或其他内容,但内容本身呢?它被删除了吗?剩下了吗?我试图弄清楚 SC 在这里的 react ,以及我是否必须努力清理“索引”索引中的这些孤立文档。

如果内容不再存在,我希望 SC 将其删除,但我想我会要求确定。

最佳答案

正如您所指出的,丢失的 URL 将获得 FETCH_ERROR 状态,在重试多次(参数 max.fetch.errors - 默认为 3)后将变为 ERROR 状态。

如果您将 DeletionBolt 连接到状态更新程序,内容将被删除,请参阅 example topology .

关于elasticsearch - 当之前的 "FETCHED"url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56344220/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com