gpt4 book ai didi

nutch - 关于使用 nutch 抓取短网址

转载 作者:bug小助手 更新时间:2023-10-28 01:29:22 27 4
gpt4 key购买 nike

我正在为我的应用程序使用 nutch 爬虫,它需要爬取一组我提供给 urls 目录的 URL,并且只获取该 URL 的内容。我对内部或外部链接的内容不感兴趣。所以我使用了 NUTCH 爬虫,并通过将深度设为 1 来运行爬虫命令。

bin/nutch crawl urls -dir crawl -depth 1

Nutch 抓取 url 并给我给定 url 的内容。

我正在使用 readseg 实用程序阅读内容。

bin/nutch readseg -dump crawl/segments/* arjun -nocontent -nofetch -nogenerate -noparse -noparsedata

我正在获取网页的内容。

我面临的问题是,如果我提供像

这样的直接网址
http://isoc.org/wp/worldipv6day/http://openhackindia.eventbrite.comhttp://www.urlesque.com/2010/06/11/last-shot-ye-olde-twitter/http://www.readwriteweb.com/archives/place_your_tweets_with_twitter_locations.phphttp://bangalore.yahoo.com/labs/summerschool.htmlhttp://riadevcamp.eventbrite.comhttp://www.sleepingtime.org/

然后我就可以获取网页的内容了。但是,当我将 URL 集作为短 URL 给出时,例如

http://is.gd/jOoAa9http://is.gd/ubHRAFhttp://is.gd/GiFqj9http://is.gd/H5rUhghttp://is.gd/wvKINLhttp://is.gd/K6jTNlhttp://is.gd/mpa6frhttp://is.gd/fmobvjhttp://is.gd/s7uZf***

我无法获取内容。

当我阅读这些片段时,它没有显示任何内容。请在下面找到从段中读取的转储文件的内容。

*Recno:: 0URL:: http://is.gd/0yKjO6CrawlDatum::Version: 7Status: 1 (db_unfetched)Fetch time: Tue Jan 25 20:56:07 IST 2011Modified time: Thu Jan 01 05:30:00 IST 1970Retries since fetch: 0Retry interval: 2592000 seconds (30 days)Score: 1.0Signature: nullMetadata: _ngt_: 1295969171407Content::Version: -1url: http://is.gd/0yKjO6base: http://is.gd/0yKjO6contentType: text/htmlmetadata: Date=Tue, 25 Jan 2011 15:26:28 GMT nutch.crawl.score=1.0 Location=http://holykaw.alltop.com/the-twitter-cool-of-a-to-z?tu4=1 _fst_=36 nutch.segment.name=20110125205614 Content-Type=text/html; charset=UTF-8 Connection=close Server=nginx X-Powered-By=PHP/5.2.14Content:Recno:: 1URL:: http://is.gd/1tpKaNContent::Version: -1url: http://is.gd/1tpKaNbase: http://is.gd/1tpKaNcontentType: text/htmlmetadata: Date=Tue, 25 Jan 2011 15:26:28 GMT nutch.crawl.score=1.0 Location=http://holykaw.alltop.com/fighting-for-women-who-dont-want-a-voice?tu3=1 _fst_=36 nutch.segment.name=20110125205614 Content-Type=text/html; charset=UTF-8 Connection=close Server=nginx X-Powered-By=PHP/5.2.14Content:CrawlDatum::Version: 7Status: 1 (db_unfetched)Fetch time: Tue Jan 25 20:56:07 IST 2011Modified time: Thu Jan 01 05:30:00 IST 1970Retries since fetch: 0Retry interval: 2592000 seconds (30 days)Score: 1.0*

我还尝试将 nutch-default.xml 中的 max.redirects 属性设置为 4,但没有发现任何进展。请为我提供此问题的解决方案。

感谢和问候,阿琼·库马尔·雷迪

最佳答案

使用 nutch 1.2 尝试编辑文件 conf/nutch-default.xml
找到 http.redirect.max 并将值更改为至少 1 而不是默认的 0。

<property>
<name>http.redirect.max</name>
<value>2</value><!-- instead of 0 -->
<description>The maximum number of redirects the fetcher will follow when
trying to fetch a page. If set to negative or 0, fetcher won't immediately
follow redirected URLs, instead it will record them for later fetching.
</description>
</property>

祝你好运

关于nutch - 关于使用 nutch 抓取短网址,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4796202/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com