python - Scrapy 给出 URLError : <urlopen error timed out>-6ren

python - Scrapy 给出 URLError :

转载作者：太空狗更新时间：2023-10-29 21:14:41

27

4

所以我有一个 scrapy 程序，我正试图启动它，但我无法让我的代码执行它，它总是出现以下错误。

我仍然可以使用 scrapy shell 命令访问该站点，所以我知道 Url 和其他内容都可以正常工作。

这是我的代码

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from Malscraper.items import MalItem

class MalSpider(CrawlSpider):
  name = 'Mal'
  allowed_domains = ['www.website.net']
  start_urls = ['http://www.website.net/stuff.php?']
  rules = [
    Rule(LinkExtractor(
        allow=['//*[@id="content"]/div[2]/div[2]/div/span/a[1]']),
        callback='parse_item',
        follow=True)
  ]

  def parse_item(self, response):
    mal_list = response.xpath('//*[@id="content"]/div[2]/table/tr/td[2]/')

    for mal in mal_list:
      item = MalItem()
      item['name'] = mal.xpath('a[1]/strong/text()').extract_first()
      item['link'] = mal.xpath('a[1]/@href').extract_first()

      yield item

编辑:这是痕迹。

Traceback (most recent call last):
  File "C:\Users\2015\Anaconda\lib\site-packages\boto\utils.py", line 210, in retry_url
    r = opener.open(req, timeout=timeout)
  File "C:\Users\2015\Anaconda\lib\urllib2.py", line 431, in open
    response = self._open(req, data)
  File "C:\Users\2015\Anaconda\lib\urllib2.py", line 449, in _open
    '_open', req)
  File "C:\Users\2015\Anaconda\lib\urllib2.py", line 409, in _call_chain
    result = func(*args)
  File "C:\Users\2015\Anaconda\lib\urllib2.py", line 1227, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "C:\Users\2015\Anaconda\lib\urllib2.py", line 1197, in do_open
    raise URLError(err)
URLError: <urlopen error timed out>

编辑2:

因此，通过 scrapy shell 命令，我能够操纵我的响应，但我只是注意到在访问该站点时再次出现完全相同的错误

编辑3:

我现在发现错误出现在我使用 shell 命令 的每个网站上，但我仍然能够操纵响应。

编辑4:那么，在运行 crawl 命令 时，如何验证我至少收到了 Scrapy 的响应？现在我不知道是我的代码导致我的日志变成空的还是错误？

这是我的settings.py

BOT_NAME = 'Malscraper'

SPIDER_MODULES = ['Malscraper.spiders']
NEWSPIDER_MODULE = 'Malscraper.spiders'
FEED_URI = 'logs/%(name)s/%(time)s.csv'
FEED_FORMAT = 'csv'

最佳答案

这个问题有一个开放的 scrapy 问题:https://github.com/scrapy/scrapy/issues/1054

虽然在其他平台上好像只是警告

您可以通过添加到您的 scrapy 设置来禁用 S3DownloadHandler(导致此错误的原因):

DOWNLOAD_HANDLERS = {
  's3': None,
}

关于python - Scrapy 给出 URLError : <urlopen error timed out>，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31048130/

27

4

0

文章推荐： python - 有没有更好的方法来检查单词第一个位置的元音？

文章推荐： c# - 带有重音符号的 MailMessage 附件文件名

文章推荐： c# - 摆脱 C# 中的预编译器指令

python 时间结果不符合预期 : time. time() - time.time()
在尝试 time 的 python 执行时，我发现在一条语句中两次调用 time.time() 时出现奇怪的行为。在语句执行期间获取time.time() 有一个非常小的处理延迟。例如time.ti
c# - 无限循环 : while(Time. time < Time.time + 5f)
我要疯了。对于我的生活，我无法弄清楚为什么以下代码会导致 Unity 在我按下播放键后立即卡住。这是一个空的项目，脚本附加到一个空的游戏对象。在控制台中，什么也没有出现，甚至没有出现初始的 Debug
c# - 无限循环 : while(Time. time < Time.time + 5f)
我要疯了。对于我的生活，我无法弄清楚为什么以下代码会导致 Unity 在我按下播放键后立即卡住。这是一个空的项目，脚本附加到一个空的游戏对象。在控制台中，什么也没有出现，甚至没有出现初始的 Debug
string - 为什么打印 time.Time 和指向 time.Time 的指针具有相同的结果？
我不明白为什么下面的结果是一样的。我预计第一个结果是指针地址。 func print(t *time.Time) { fmt.Println(t) // 2009-11-10 23:00:00
python - 为什么 time.time() - time.time() = 0.0？
Python 3.6.4 (v3.6.4:d48eceb, Dec 19 2017, 06:54:40) [MSC v.1900 64 bit (AMD64)] on win32 Type "help
time - 获取 time.Time 月份的最后一天
当我有一个time.Time时: // January, 29th t, _ := time.Parse("2006-01-02", "2016-01-29") 如何获得代表 1 月 31 日的 ti
sql - 从 "time with time zone"和时区名称中获取 "time without time zone"
首先，我意识到不推荐使用 time with time zone。我要使用它是因为我将多个 time with time zone 值与我当前的系统时间进行比较，而不管是哪一天。 IE。用户说每天 0
time - std::time::Duration 是否与 "time" crate 中的 time::precise_time_ns 一样精确？
长期以来，在 Rust 中精确测量时间的标准方法是 time crate 及其 time::precise_time_ns功能。但是，time crate 现在已被弃用，std 库有 std::tim
time - $time 在科学集群上使用并行处理时的含义？
我正在我学校的一个科学集群上运行我的有限差分程序。该程序使用 openmpi 来并行化代码。当程序连续运行时，我得到: real 78m40.592s user 78m34.920s s
python - 理解 time.clock() 和 time.time()
尽管它们已被弃用并且有比 time 更好的模块(即 timeit)，但我想知道这两个函数 time 之间的区别.clock() 和 time.time()。从后者 (time.time()) 开始，
python - time.time 和 time.clock 有什么区别？
这个问题在这里已经有了答案: Python's time.clock() vs. time.time() accuracy? (16 个答案) 关闭 6 年前。我认为两者都衡量时间量？但是他们返回
Python:time.time() 与 time.clock() 之间有显着差异吗？
我正在尝试测试 http 请求处理代码块在我的 Flask Controller 中需要多长时间，这是我使用的示例代码: cancelled = [] t0 = time.time() t1 = ti
python time.time() 和 "Daylight Saving Time"
运行 python 的计算机时钟(Windows 或 Linux)时会发生什么自动更改并调用 time.time()? 我读到，当时钟手动更改为过去的某个值时，time.time() 的值会变小。最
time - 准时测零最简洁的方法.Time
我有一个结构可能无法在其字段之一上设置 time.Time 值。测试无效性时，我不能使用 nil 或 0。time.Unix(0,0) 也不相同。我想到了这个: var emptyTime time.
time - 可空时间.Time
我有一个打算用数据库记录填充的结构，其中一个日期时间列可以为空: type Reminder struct { Id int CreatedAt time.Time
java - Execute CommandA A% of time, CommandB B% of time, CommandA C% of time ----- Command Z% time 使用随机数
问题陈述:通过匹配其百分比随机执行各种命令。比如执行 CommandA 50% 的时间和 commandB 25% 的时间和 commandC 15% 的时间等等，总百分比应该是 100%。我的问题
php - [路由 : time. 更新] [URI: time/{time}] 缺少必需的参数
我正在使用 laravel 6。我在同一个应用程序中有类似的 Controller 和类似的 View ，它工作正常。对比之后还是找不到错误。 Facade\Ignition\Exceptions\V
Python:从 time.time() 值转换为 time.strftime() 值的最简单方法是什么？
我需要用 ("%m/%d/%Y %H:%M:%S") 格式表示时间，我得到的浮点值是 time.time(). 我已经有了一个 time.time() 形式的值。例如，我已经有一个值，我每 0.3 秒
python - 将 datetime.time() 转换为与 time.time() 相同的格式
我正在使用以下方法获取 utc 日期时间: import datetime import time from pytz import timezone now_utc = datetime.datet
python - 为什么 time.clock 给出的耗时比 time.time 长？
我在 Ubuntu 上使用 time.clock 和 time.time 为一段 python 代码计时: clock elapsed time: 8.770 s time elapsed time

首页

博学

6Ren·AI

商城

python - Scrapy 给出 URLError :