gpt4 book ai didi

java - Crawler4j 无声地停止

转载 作者:行者123 更新时间:2023-12-01 13:03:00 24 4
gpt4 key购买 nike

在我的应用程序中,我使用crawler4j。虽然应用程序很大,但我什至用这里给出的示例代码测试了代码:https://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples/basic/

问题是,它适用于大多数网站,但是当我将种子网址添加为:http://indianexpress.com/ ,爬虫在我的 Eclipse 上停止,没有任何错误消息。我尝试了几次,但就是不行。我尝试在 shouldVisit 方法中打印 url 和示例文本,例如“hello”,但没有打印任何内容意味着它甚至没有到达那里。可能是什么问题?

编辑:

我刚刚发现,crawler4j 不适用于任何 WordPress 网站。例如,http://darcyconroy.net/或者您可以查看http://indianexpress.com/next (在任何 WordPress 站点 URL 旁边添加/)。可能是什么原因 ? http://indianexpress.com/robots.txt似乎没有写任何可疑的东西。

最佳答案

我认为,wordpress 网站除了 robots.txt 之外还有一些插件可以过滤 Useragents。

我可以说爬行被服务器阻止了。

启用记录器输出。

BasicConfigurator.configure();

将记录器设置为警告级别。

Logger.getRootLogger().setLevel(Level.WARN);

使用以下代码将 UserAgent String 更改为空,它会抓取数据。

config.setUserAgentString("");

所以我认为它与crawler4j无关。 Crawler4j 设置默认的 Useragent 字符串,我认为该字符串被阻止或其 useragent 字符串被此类插件列入黑名单。

关于java - Crawler4j 无声地停止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23413880/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com