gpt4 book ai didi

solr - 即使存在要获取的Urls,在Nutch上也没有获取Urls的错误

转载 作者:行者123 更新时间:2023-12-02 00:07:22 25 4
gpt4 key购买 nike

我仍然习惯于Nutch。我设法通过bin/nutch crawl urls -dir crawl -depth 6 -topN 10而不是nutch.apache.org进行了测试爬网,并使用bin/nutch crawl urls -solr http://<domain>:<port>/solr/core1/ -depth 4 -topN 7将其索引为solr

甚至没有提到它在我自己的网站上超时,我似乎无法再次对其进行爬网或对其他任何站点(例如wiki.apache.org)进行爬网。我已经删除了nutch主目录中的所有爬网目录,但仍然收到以下错误(指出没有更多的URL可以爬网):

<user>@<domain>:/usr/share/nutch$ sudo sh nutch-test.sh
solrUrl is not set, indexing will be skipped...
crawl started in: crawl
rootUrlDir = urls
threads = 10
depth = 6
solrUrl=null
topN = 10
Injector: starting at 2013-07-03 15:56:47
Injector: crawlDb: crawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 1
Injector: total number of urls injected after normalization and filtering: 0
Injector: Merging injected urls into crawl db.
Injector: finished at 2013-07-03 15:56:50, elapsed: 00:00:03
Generator: starting at 2013-07-03 15:56:50
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: topN: 10
Generator: jobtracker is 'local', generating exactly one partition.
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
crawl finished: crawl

我的 urls/seed.txt文件中包含 http://nutch.apache.org/

我的 regex-urlfilter.txt中包含 +^http://([a-z0-9\-A-Z]*\.)*nutch.apache.org//([a-z0-9\-A-Z]*\/)*

我还增加了 -depthtopN来指定还有更多要索引的内容,但是在第一次爬网后它始终会给出错误。如何重置它以使其再次爬网?是否有一些需要在Nutch中某个地方清除的URL缓存?

更新:似乎我们网站的问题是我没有使用 www,没有 www也无法解决。通过 ping,www.ourdomain.org可以解析。

但是我已经将其放入必要的文件中,仍然存在问题。首先,看起来 Injector: total number of urls rejected by filters: 1完全是问题,但不是第一次爬网。为什么和什么过滤器拒绝URL,但不应该。

最佳答案

让人觉得很尴尬。但是,由于“检查您的*-urlfilter.txt”文件的消除URL的内容而导致的旧的胡乱抓取并不适用于此处。

就我而言,我在网址正则表达式中有一个额外的/:
+^http://([a-z0-9\-A-Z]*\.)*nutch.apache.org//([a-z0-9\-A-Z]*\/)*
应该是+^http://([a-z0-9\-A-Z]*\.)*nutch.apache.org/([a-z0-9\-A-Z]*\/)*

关于solr - 即使存在要获取的Urls,在Nutch上也没有获取Urls的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17458155/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com