gpt4 book ai didi

python - 使用scrapy抓取重定向的url

转载 作者:太空宇宙 更新时间:2023-11-03 15:55:40 26 4
gpt4 key购买 nike

我正在尝试使用 scrapy 抓取 www.mywebsite.com

www.mywebsite.com 托管在 URL www.mywebsite.freehost.com 的免费主机上。我正在将免费主机重定向到我的付费域名。

这里的问题是scrapy忽略了重定向,最终结果是0个页面被抓取。

如何告诉 scrapy 我需要它来抓取重定向的网址?我只需要它来抓取重定向的 url,而不是导出网站的其他 url(例如 facebook 页面等)

2016-11-27 14:48:42 [scrapy] INFO: Spider opened
2016-11-27 14:48:42 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-11-27 14:48:42 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-11-27 14:48:44 [scrapy] DEBUG: Crawled (200) <GET http://www.mywebsite.com/> (referer: None)
2016-11-27 14:48:44 [scrapy] DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net>
2016-11-27 14:48:44 [scrapy] INFO: Closing spider (finished)
2016-11-27 14:48:44 [scrapy] INFO: Dumping Scrapy stats:

最佳答案

日志显示您的请求正在被过滤:

DEBUG: Filtered offsite request to 'www.mywebsite.freehost.net': <GET www.mywebsite.freehost.net>

将该域 freehost.net 添加到您的 allowed_domains 列表,或从您的蜘蛛中删除 allowed_domains 以允许每个域。

关于python - 使用scrapy抓取重定向的url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40826506/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com