python - python中的Scrapy Crawler无法跟踪链接？-6ren

python - python中的Scrapy Crawler无法跟踪链接？

转载作者：太空狗更新时间：2023-10-29 21:12:51

24

4

我用python的scrapy工具写了一个python的爬虫。以下是python代码:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
#from scrapy.item import Item
from a11ypi.items import AYpiItem

class AYpiSpider(CrawlSpider):
        name = "AYpi"
        allowed_domains = ["a11y.in"]
        start_urls = ["http://a11y.in/a11ypi/idea/firesafety.html"]

        rules =(
                Rule(SgmlLinkExtractor(allow = ()) ,callback = 'parse_item')
                )

        def parse_item(self,response):
                #filename = response.url.split("/")[-1]
                #open(filename,'wb').write(response.body)
                #testing codes ^ (the above)

                hxs = HtmlXPathSelector(response)
                item = AYpiItem()
                item["foruri"] = hxs.select("//@foruri").extract()
                item["thisurl"] = response.url
                item["thisid"] = hxs.select("//@foruri/../@id").extract()
                item["rec"] = hxs.select("//@foruri/../@rec").extract()
                return item

但是，抛出的错误是:

Traceback (most recent call last):
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/cmdline.py", line 131, in execute
    _run_print_help(parser, _run_command, cmd, args, opts)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/cmdline.py", line 97, in _run_print_help
    func(*a, **kw)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/cmdline.py", line 138, in _run_command
    cmd.run(args, opts)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/commands/crawl.py", line 45, in run
    q.append_spider_name(name, **opts.spargs)
--- <exception caught here> ---
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/queue.py", line 89, in append_spider_name
    spider = self._spiders.create(name, **spider_kwargs)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/spidermanager.py", line 36, in create
    return self._spiders[spider_name](**spider_kwargs)
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/contrib/spiders/crawl.py", line 38, in __init__
    self._compile_rules()
  File "/usr/lib/python2.6/site-packages/Scrapy-0.12.0.2538-py2.6.egg/scrapy/contrib/spiders/crawl.py", line 82, in _compile_rules
    self._rules = [copy.copy(r) for r in self.rules]
exceptions.TypeError: 'Rule' object is not iterable

谁能给我解释一下这是怎么回事？由于这是文档中提到的内容，并且我将允许字段留空，因此默认情况下它本身应该遵循 True。那么为什么会出错呢？我可以对我的抓取工具进行哪些优化以使其速度更快？

最佳答案

据我所知，您的规则似乎不是可迭代的。看起来您正在尝试将规则设为元组，您应该 read up on tuples in the python documentation .

要解决您的问题，请更改此行:

    rules =(
            Rule(SgmlLinkExtractor(allow = ()) ,callback = 'parse_item')
            )

收件人:

    rules =(Rule(SgmlLinkExtractor(allow = ()) ,callback = 'parse_item'),)

注意到末尾的逗号了吗？

关于python - python中的Scrapy Crawler无法跟踪链接？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5223531/

24

4

0

文章推荐： c# - 为什么 .NET 中的已检查算法有时比未检查的算法快？

文章推荐： c++ - 用 std::forward_as_tuple 模拟 std::forward

文章推荐： c# - 使用 LINQ 获取第一列具有特定值的 DataGridView 行索引

文章推荐： c++ - Halide:将 C++ 函数传递给 Halide Func

php - xdebug 跟踪/跟踪 php 回显，打印调用
有没有办法在 xdebug 跟踪输出中查看 echo 或 print 函数调用。我正在为我在我的服务器中运行的所有脚本寻找一个全局配置(或一种方法)。例子: 我希望跟踪输出显示 echo 调用。默
grails - 跟踪/BPT陷阱:5个正在运行的grails 2.1.0应用-跟踪/BPT陷阱:5
我将应用程序从2.0.0M2升级到了2.1.0，但是当我尝试运行该应用程序时，出现此错误: Note: /Volumes/Info/proyectos-grails/vincoorbis/Member
共享点日志记录/跟踪
我如何在共享点中执行日志记录。我想使用跟踪。以便它记录 12 个配置单元日志。最佳答案微软提供了一个例子: http://msdn.microsoft.com/en-us/library/aa9
Android - 跟踪
如何跟踪 eclipse 和 android 模拟器的输出。我习惯于在 Flash 和 actionscript 中这样做。在 AS3 中它将是: trace('我的跟踪语句'); 最佳答案您有几
Postgresql 跟踪
是否可以在 Postgresql 上进行查询跟踪？我在带有 OLEDB 界面的 Windows 上使用 9.0。此外，我需要它是实时的，而不是像默认情况下那样缓冲... 最佳答案我假设您的意思是在
trace - HaxeFlixel 跟踪
第一天 HaxeFlixel 编码器。愚蠢的错误，但谷歌没有帮助我。如何使用 Haxe、NME 和 Flixel 追踪到 FlashDevelop 输出。它在使用 C++ 执行时有效，但对 Flas
iPhone:跟踪/识别个人触摸
我有一个关于 iPhone 上跟踪触摸的快速问题，我似乎无法就此得出结论，因此非常感谢任何建议/想法: 我希望能够跟踪和识别 iPhone 上的触摸，即。基本上每次触摸都有一个起始位置和当前/移动位置
php - 跟踪/跟踪Yii错误信息并将其存储在数据库中
我正在做我的大学项目，我只想跟踪错误及其信息。错误信息应该与用户源设备信息一起存储在数据库中(为了检测源设备，我正在使用MobileDetect扩展名)。我只想知道应该在哪里编写代码，以便获得所有错误
azure - 如何利用应用程序洞察进行分布式跟踪/跟踪
我正在 Azure 中使用多个资源，流程如下所示: 从 sftp 获取文件使用 http 调用的数据丰富文件将消息放入队列处理消息调用一些外部电话传递数据我们如何跟踪上述过程中特定“运行”
WCF 跟踪。如何获得关闭连接的确切原因？
在我的 WCF 服务中，当尝试传输大数据时，我不断收到错误:底层连接已关闭:连接意外关闭我想知道引发此错误的具体原因，因此我设置了 WCF 跟踪并可以读取 traces.svclog 文件。问题是
Firebase + GTM 跟踪
我的目标是在 Firebase Analytics 中获取应用数据，在 Google Universal Analytics 中获取其他自定义数据和应用数据。我的问题是我是否在我的应用上安装 Fir
azure - 如何利用应用程序洞察进行分布式跟踪/跟踪
我正在 Azure 中使用多个资源，流程如下所示: 从 sftp 获取文件使用 http 调用的数据丰富文件将消息放入队列处理消息调用一些外部电话传递数据我们如何跟踪上述过程中特定“运行”
Tridion 分析/跟踪
我们正在考虑跟踪用户通过 Tridion 管理的网站的旅程的要求，然后能够根据此行为将此用户识别为“潜在客户”，然后如果他们在之后没有返回，则触发向此用户发送电子邮件X 天。 SmartTarget
debugging - 如何描述本地函数(跟踪)？
在 Common Lisp 中，函数(跟踪名称)可用于查看有关函数调用的输出。如果我的函数是用局部作用域声明的，我如何描述它以进行跟踪？例如，如何跟踪栏，如下: (defun foo (x)
javascript - 跟踪/观察文本框值已更改
有什么方法可以检测文本框的值是否已更改，是用户明确更改还是某些 java 脚本代码修改了文本框？我需要检测这种变化。最佳答案要跟踪用户更改，您可以添加按键处理程序: $(selector).key
c - 跟踪/等待非子进程
int Enable ( int pid) { int status; #if 1 { printf ( "child pid = %d \n", pid ); long ret =
c - 跟踪/监控系统
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
c - 跟踪/包装开放系统调用
我有以下测试代码: #include int main(void) { fprintf(stderr, "This is a test.\n"); int ret = open("s
Java 应用程序分析/跟踪
我有一个闭源 Java 应用程序，供应商已为其提供了用于自定义的 API。由于我没有其他文档，我完全依赖 API 的 javadoc。我想跟踪特定用例在不同类中实际调用的方法。有什么办法可以用 ec
php - 跟踪 For 循环的最后一个
我正在学习 PHP。我在我的一个 php 函数中使用了如下所示的 for 循环。 $numbers = $data["data"]; for ($i = 0;$i send($numbers[

首页

博学

6Ren·AI

商城

python - python中的Scrapy Crawler无法跟踪链接？