python - Scrapy Spider 在处理过程中出现错误-6ren

python - Scrapy Spider 在处理过程中出现错误

转载作者：太空宇宙更新时间：2023-11-03 21:43:28

29

4

我是 python 编程和 scrapy 的新手。我在网络爬行时遇到错误。我在这个网站上使用过类似的帮助页面，甚至从头到尾遵循了一个教程，但没有成功，任何帮助将不胜感激。

错误说:蜘蛛错误处理http://quotes.toscrape.com/>(引用:无)回溯(最近一次调用):

我发现了一些类似的代码，并且类似的代码运行良好但我写的不是

这是我的代码:

#-*-  coding: utf-8 -*-
import scrapy


class QuotesSpider(scrapy.Spider):
name = "quotes"
allowed_domains = ["quotes.toscrape.com"]
start_urls = (
    'http://quotes.toscrape.com/',
)

def parse(self, response):
    quotes = response.xpath('//*[@class="quote"]')
    for quote in quotes:
        text = quote.xpath('.//*[@class="text"]/text()').extract_first()
        author = quote.xpath('.//*[@itemprop="author"]/text()').extract_first()
        tags = quote.xpath('.//*[@itemprop="keywords"]/@content').extract_first()

        print '\n'
        print text
        print author
        print tags
        print '\n'

    next_page_url = response.xpath('//*[@class="next"]/a/@href').extract_first()
    absolute_next_page_url = response.urljoin(next_page_url)
    yield scrapy.Request(absolute_next_page_url)

这里是命令提示符:

C:\Users\cancun\Desktop\Dosyalar\Coding\Phyton\Spider\quotes_spider>scrapy crawl quotes
2018-10-06 14:42:07 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: quotes_spider)
2018-10-06 14:42:07 [scrapy.utils.log] INFO: Versions: lxml 4.2.1.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted 18.7.0, Python 2.7.15 |Anaconda, Inc.| (default, May  1 2018, 18:37:09) [MSC v.1500 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.0.2o  27 Mar 2018), cryptography 2.2.2, Platform Windows-10-10.0.16299
2018-10-06 14:42:07 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'quotes_spider.spiders', 'SPIDER_MODULES': ['quotes_spider.spiders'], 'BOT_NAME': 'quotes_spider'}
2018-10-06 14:42:07 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.logstats.LogStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2018-10-06 14:42:07 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-10-06 14:42:07 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-10-06 14:42:07 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-10-06 14:42:07 [scrapy.core.engine] INFO: Spider opened
2018-10-06 14:42:07 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-10-06 14:42:07 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6024
2018-10-06 14:42:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/> (referer: None)


2018-10-06 14:42:07 [scrapy.core.scraper] ERROR: Spider error processing <GET http://quotes.toscrape.com/> (referer: None)
Traceback (most recent call last):
File "c:\programdata\anaconda2\lib\site-packages\scrapy\utils\defer.py", line 102, in iter_errback
yield next(it)
File "c:\programdata\anaconda2\lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 30, in process_spider_output
for x in result:
File "c:\programdata\anaconda2\lib\site-packages\scrapy\spidermiddlewares\referer.py", line 339, in <genexpr>
return (_set_referer(r) for r in result or ())
File "c:\programdata\anaconda2\lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 37, in <genexpr>
return (r for r in result or () if _filter(r))
File "c:\programdata\anaconda2\lib\site-packages\scrapy\spidermiddlewares\depth.py", line 58, in <genexpr>
return (r for r in result or () if _filter(r))
File "C:\Users\cancun\Desktop\Dosyalar\Coding\Phyton\Spider\quotes_spider\quotes_spider\spiders\quotes.py", line 20, in parse
print text
File "c:\programdata\anaconda2\lib\encodings\cp437.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode character u'\u201c' in position 0: character maps to <undefined>
2018-10-06 14:42:07 [scrapy.core.engine] INFO: Closing spider (finished)
2018-10-06 14:42:07 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 218,
'downloader/request_count': 1,
'downloader/request_method_count/GET': 1,
'downloader/response_bytes': 2333,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 10, 6, 11, 42, 7, 594000),
'log_count/DEBUG': 2,
'log_count/ERROR': 1,
'log_count/INFO': 7,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'spider_exceptions/UnicodeEncodeError': 1,
'start_time': datetime.datetime(2018, 10, 6, 11, 42, 7, 309000)}
2018-10-06 14:42:07 [scrapy.core.engine] INFO: Spider closed (finished)

谢谢!

最佳答案

问题是您的命令提示符使用 cp437字符集，不支持您刚刚抓取的某些字符(例如“和”)

我认为不可能将这些字符打印到 Windows shell(也许新的 PowerShell 支持它，我不知道)。您可以创建一个新文件，为其选择丰富的字符集，然后将所有输出写入其中:

import io
out_file = io.open('output.txt', 'a', encoding='UTF-8')

如果您确实想使用操作系统使用的默认字符编码，请创建如下文件:

import io
out_file = io.open('output.txt', 'a', errors='backslashreplace')

使用后一个选项，您将看到类似的内容:

\u201cThe world as we have created it is a process of our thinking.\u201d

关于python - Scrapy Spider 在处理过程中出现错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52678981/

29

4

0

文章推荐： python - 为什么在 Python 中使用抽象基类？

文章推荐： c# - 当我按下 Alt 键时，如何防止控制框获得焦点？

文章推荐： c# - 创建从 json 到 c# 的类解析

fortran - 在 PURE 过程 Fortran 中调用类型绑定(bind)过程
如果我声明了类似的类型 type test(NSIZE) integer, len :: NSIZE real :: dummy(NSIZE) contains procedure,
vba - 从 Excel 应用程序隐藏 VBA 过程，但不从其他项目隐藏 VBA 过程
我知道这是一个不太可能的事情，但是由于“选项私有(private)模块”的限制，甚至更糟糕的“私有(private)子/函数”的限制，有谁知道是否有一种方法可以从 Excel 应用程序隐藏 VBA 过
SQL 过程 - 根据其他表的计数更改表列的值
我有两个表，property 和 component。 component.id_property = property.id。我正在尝试创建一个过程，该过程对所选属性的组件进行计数，如果所选属性没
在一行中返回结果的 SQL 过程
我有一份报告，它是在 SSRS 2005 中开发的，我正在使用存储过程从数据库中获取结果。报告输出的结果非常简单，如下图所示。如果假设我正在寻找不同的成员例如:- MemberID c108 c
delphi - 衰落值常规功能/过程
我需要一个通用函数/过程，该函数/过程将根据提供的数据计算出我的淡入淡出时间和值，如下所示：我将字节值保存在字节数组中：这些是起始值。然后，我在其他数组中存储了一些值：这些将是新值。然后我有时间要提
java - 如何在java中为多个按钮设置相同的操作/过程
我想在界面的多个按钮上创建相同的操作。是否只能通过创建单独的操作监听器方法并调用执行操作的方法才可行，还是还有其他方法？是否可以将按钮放在一个组中并执行以下操作:- groupButton.setOn
delphi - 跳转到finally而不退出函数/过程
我有以下情况: procedure Test; begin repeat TryAgain := FALSE; try // Code // Code if this an
Oracle 向一个对象类型添加一个新的成员函数/过程
我正在尝试执行以下操作；假设我在 Oracle 中创建了一个对象类型 create type test as object( name varchar2(12), member procedure p
VHDL - 适用于任何类型数组的函数/过程
问题: 如果可能的话，如何声明一个用于任何类型参数的函数 T其中 T 的唯一约束是它被定义为 1D array如 type T is array ( integer range <> ) of a_r
包含一整年的天数和小时数的 Mysql 过程
我正在尝试创建这个 mysql 过程来制作一个包含今年所有日期和所有时间的表(以一小时为间隔。) CREATE TABLE FECHAS ( created_at datetime ); CREA
带有预选光标数据的 MySQL 过程
所以，我在这里面临一个问题，这让我发疯，我认为这是一个愚蠢的错误，所以我不是 MySQL 的新手，但它并不像我想象的那样工作。尝试将此语句部署到 MySQL 后，我收到此错误: ERROR 106
带参数语法的 MySQL 过程
我有一个架构，其中包含星球大战中的人物列表、他们出现的电影、他们访问的行星等。这是架构: CREATE DATABASE IF NOT EXISTS `starwarsFINAL` /*!40100
具有多个计数和分组依据的 MySql 过程
我一直在为一家慈善机构创建一款应用程序，允许家庭在节日期间注册接收礼物。数据库组织有多个表。下面列出了这些表(及其架构/创建语句): CREATE TABLE IF NOT EXISTS ValidD
mysql - 按日期删除表而不删除系统表的函数/过程
正如上面标题所解释的，我正在尝试编写一个sql函数来按日期删除表而不删除系统表。我在此消息下方放置了一张图片，以便直观地解释我的问题。任何帮助将不胜感激!感谢您的时间! 最佳答案您可以通过查询INF
使用游标的 mysql 过程
DELIMITER $$ CREATE PROCEDURE INSERT_NONE_HISTORY_CHECKBOX() BEGIN DECLARE note_id bigint(20); F
postgresql 过程/触发器
是否可以编写一个存储过程或触发器，在特定时间在数据库内部自动执行，而无需来自应用程序的任何调用？如果是，那么任何人都可以给我一个例子或链接到一些我可以阅读如何做到这一点的资源。最佳答案查看 pgA
mysql 过程 - 在第二个查询中使用结果并重新格式化日期
我需要创建一个过程:1)从表中的字段中选择一些文本并将其存储在变量中2) 更新相同的记录字段，仅添加 yyyymmdd 格式的日期以及过程中的附加文本输入...类似这样的... delimiter /
MySQL 过程 - 如果不存在则插入行
好的，这就是我想做的: 如果条目已存在(例如基于字段name)，则只需返回其id 如果没有，请添加这是我迄今为止所管理的(对于“如果不存在，则创建它”部分): INSERT INTO `object
MySQL 过程 - 开始工作
以下是我编写的程序，用于找出每位客户每天购买的前 10 件商品。这是我尝试过的第一个 PL/SQL 操作。它没有达到我预期的效果。我使用的逻辑是接受开始日期、结束日期以及我对每个客户感兴趣的前“x
mysql - 列不能为空 - 过程
我正在尝试在MySQL中创建一个过程那insert week s(当年)发送至我的 week table 。但存在一个问题，因为在为下一行添加第一行后，我收到错误: number column can

首页

博学

6Ren·AI

商城

python - Scrapy Spider 在处理过程中出现错误