- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我一直在使用StormCrawler来抓取网站。作为https协议(protocol),我在StormCrawler中设置了默认的https协议(protocol)。但是,当我抓取一些网站时,我收到以下异常:
Caused by: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target
at sun.security.provider.certpath.SunCertPathBuilder.build(SunCertPathBuilder.java:141) ~[?:1.8.0_131]
at sun.security.provider.certpath.SunCertPathBuilder.engineBuild(SunCertPathBuilder.java:126) ~[?:1.8.0_131]
at java.security.cert.CertPathBuilder.build(CertPathBuilder.java:280) ~[?:1.8.0_131]
at sun.security.validator.PKIXValidator.doBuild(PKIXValidator.java:382) ~[?:1.8.0_131]
at sun.security.validator.PKIXValidator.engineValidate(PKIXValidator.java:292) ~[?:1.8.0_131]
at sun.security.validator.Validator.validate(Validator.java:260) ~[?:1.8.0_131]
at sun.security.ssl.X509TrustManagerImpl.validate(X509TrustManagerImpl.java:324) ~[?:1.8.0_131]
at sun.security.ssl.X509TrustManagerImpl.checkTrusted(X509TrustManagerImpl.java:229) ~[?:1.8.0_131]
at sun.security.ssl.X509TrustManagerImpl.checkServerTrusted(X509TrustManagerImpl.java:124) ~[?:1.8.0_131]
at sun.security.ssl.ClientHandshaker.serverCertificate(ClientHandshaker.java:1496) ~[?:1.8.0_131]
... 20 more
是否有自动下载证书和设置爬虫的机制以及如何设置爬虫的配置?
最佳答案
此问题并非 StormCrawler 特有。 This answer解释说您可以手动导入证书,这并不是一个真正的选择,除非您专门爬行该网站。另一种选择是禁用证书验证。这需要修改协议(protocol)实现,但应该是可行的。
您尝试过 OKHttp 实现吗?它的行为可能与 Apache HttClient 不同。请参阅okhttp wiki .
关于java - 使用 StormCrawler 抓取某些 url 时出现 X509 证书异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49399561/
当爬网程序爬行完一个域时,我想执行一项操作(在我的例子中,将一个元组发送到一个 bolt )。 我发现 StormCrawler 甚至能够在给定的时间间隔后重新访问网站。在同时爬取多个域的场景下,在哪
我们正在尝试将网页的内容存储在 中状态索引 ,以及 url、状态和元数据信息。 我们尝试编辑 ES_IndexInit.sh 并在“状态”映射部分添加下一个属性: "content": {
我正在使用 Stormcrawler 1.15、ElasticSearch 7.5,并按照本教程启动并运行 SC:https://www.youtube.com/watch?v=KTerugU12TY
我正在使用stormcrawler将数据放入一些Elasticsearch索引中,并且在状态索引中有一堆URL,它们具有各种状态-DISCOVERED,FETCHED,ERROR等。 我想知道是否可以
我们的大学网络系统有大约 1200 个站点,包括几百万个页面。我们在一台本地运行 apache 的机器上安装和配置了 Stormcrawler,并将驱动器映射到 Web 环境的文件系统。这意味着我们可
Stormcrawler 1.13出现了一个奇怪的问题。在我们的某些(但不是全部)网站上,我们有一个标记,而SC的indexer.md.mapping设置为- parse.college=colleg
stormcrawler maven 原型(prototype)似乎与我的项目中的 warc 模块配合得不太好。目前它仅创建空的 0 字节文件,其名称类似于“crawl-20180802121925-
在Stormcrawler 1.14的已完成任务列表中,我同时看到“升级到Elasticsearch 7.0.x”和“ES 6.70依赖Elasticsearch”。这是否意味着1.14与两者兼容?
我一直在使用StormCrawler来抓取网站。作为https协议(protocol),我在StormCrawler中设置了默认的https协议(protocol)。但是,当我抓取一些网站时,我收到以
我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理一个具有先前“获取”的 url 的站点,当下次 SC 到达它时,它已被删除并生成重定向或 404。来自的内容会发生什么旧
Closed. This question does not meet Stack Overflow guidelines 。它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 Stack Ov
我是一名优秀的程序员,十分优秀!