gpt4 book ai didi

java - 使用 crawler4j 抓取 https 页面

转载 作者:太空宇宙 更新时间:2023-11-03 14:15:05 24 4
gpt4 key购买 nike

几个月来,我们一直在使用 crawler4j 来抓取 https 站点。突然之间,自上周五以来,我们无法抓取同一个 https 站点。 https 协议(protocol)有什么变化吗?网址是https://enot.publicprocurement.be/enot-war/home.do

作为测试,直接抓取标题:Welkom op het platform e-Notification

非常感谢任何帮助。

最佳答案

我发现它在设置 CrawlConfig 时效果最好

 CrawlConfig config = new CrawlConfig();
config.setIncludeHttpsPages(true);
config.setUserAgentString("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36");
PageFetcher pageFetcher = new PageFetcher(config);

关于java - 使用 crawler4j 抓取 https 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21405536/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com