gpt4 book ai didi

ssl - Nutch 的 HTTPS 抓取问题

转载 作者:太空宇宙 更新时间:2023-11-03 15:09:43 31 4
gpt4 key购买 nike

我想使用带有 java7 的 nutch 1.9 抓取 https 站点

在 seed.txt 中

https://site.com

在 regex-urlfilter.txt 中

+^https://([a-z0-9]*\.)*site.com/

但是当使用 bin/crawl ... 运行 crawlig 进程时,我得到了一个 javax.net.ssl.SSLProtocolException: handshake alert: unrecognized_name

最佳答案

我得到了抓取具有默认证书的网站的解决方案,我希望这可以帮助其他遇到此问题的人。

本论坛的一些帖子提到了添加参数-Djsse.enableSNIExtension=false但是放在哪里呢?我使用 nano 编辑了 nucth 文件并在 NUTCH_OPTS 中添加了这个参数在 nutch 1.9 中,它位于第 195 行,现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)

之后爬取成功,没有中断

关于ssl - Nutch 的 HTTPS 抓取问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27297622/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com