gpt4 book ai didi

java - StormCrawler 在爬行完一个域后执行操作

转载 作者:行者123 更新时间:2023-12-02 02:12:01 25 4
gpt4 key购买 nike

当爬网程序爬行完一个域时,我想执行一项操作(在我的例子中,将一个元组发送到一个 bolt )。

我发现 StormCrawler 甚至能够在给定的时间间隔后重新访问网站。在同时爬取多个域的场景下,在哪个组件中或者如何查看一个域何时爬行完成?

我当前的设置是将 StormCrawler 与 Elasticsearch 和 Kibana 结合使用。

最佳答案

请参阅“我什么时候知道爬网何时完成?”在 FAQ .

I saw that StormCrawler is able to do even revisit a website after a given interval.

StormCrawler 不会安排网站本身,而是安排单独的 URL。

In which component or how could I see when one domain is finished crawling in the scenario of crawling multiple domains simultaneously?

根据您正在爬网的站点数量,您可以编写一个自定义 Bolt,它将在 ES 中查询状态索引中的所有主机名,并检测那些没有更多状态为 DISCOVERED 的 URL 的主机名。

或者,自定义 Bolt 会跟踪您正在抓取的网站,并在过去 N 分钟内未获取特定网站的 URL 时触发操作。

关于java - StormCrawler 在爬行完一个域后执行操作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49877898/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com