python - scrapy项目中间件-TypeError : process_start_requests() takes 2 positional arguments but 3 were given-6ren

python - scrapy项目中间件-TypeError : process_start_requests() takes 2 positional arguments but 3 were given

转载作者：行者123 更新时间：2023-12-01 03:01:57

29

4

一旦我在设置中取消注释项目中间件，就会收到错误

SPIDER_MIDDLEWARES = {
    'scrapyspider.middlewares.ScrapySpiderProjectMiddleware': 543,
}

这是我的蜘蛛

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor
from scrapy.item import Item, Field

class DomainLinks(Item):
    links = Field()

class ScrapyProject(CrawlSpider):
    name = 'scrapyspider'

    #allowed_domains = []
    start_urls = ['http://www.example.com']

    rules = (Rule(LxmlLinkExtractor(allow=()), callback='parse_links', follow=True),)

    def parse_start_url(self, response):
        self.parse_links(response)

    def parse_links(self, response):
        item = DomainLinks()
        item['links'] = []

        links = LxmlLinkExtractor(allow=(),deny = ()).extract_links(response)

        for link in links:  
            if link.url not in item['links']:
                item['links'].append(link.url)

        return item

这是从项目中间件文件中提取的一些文本。 process_spider_output是我过滤内部链接的地方，调用process_start_requests会导致错误。

def process_spider_output(response, result, spider):
    # Called with the results returned from the Spider, after
    # it has processed the response.

    domain = response.url.strip("http://","").strip("https://","").strip("www.").strip("ww2.").split("/")[0]

    filtered_result = []
    for i in result:
        if domain in i:
            filtered_result.append(i)


    # Must return an iterable of Request, dict or Item objects.
    for i in filtered_result:
       yield i

def process_start_requests(start_requests, spider):
    # Called with the start requests of the spider, and works
    # similarly to the process_spider_output() method, except
    # that it doesn’t have a response associated.

    # Must return only requests (not items).
    for r in start_requests:
        yield r

回溯

2017-05-01 12:30:55 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapyproject.middlewares.scrapyprojectSpiderMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-05-01 12:30:55 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2017-05-01 12:30:55 [scrapy.core.engine] INFO: Spider opened
Unhandled error in Deferred:
2017-05-01 12:30:55 [twisted] CRITICAL: Unhandled error in Deferred:

2017-05-01 12:30:55 [twisted] CRITICAL: 
Traceback (most recent call last):
  File "/home/matt/.local/lib/python3.5/site-packages/twisted/internet/defer.py", line 1301, in _inlineCallbacks
    result = g.send(result)
  File "/home/matt/.local/lib/python3.5/site-packages/scrapy/crawler.py", line 74, in crawl
    yield self.engine.open_spider(self.spider, start_requests)
TypeError: process_start_requests() takes 2 positional arguments but 3 were given

我正在尝试过滤链接，以便仅跟踪/提取内部链接

scrapy 文档不是很清楚..

谢谢

最佳答案

由于我见过的所有 scrapy 中间件都在类内部，我怀疑 self 参数丢失:

def process_spider_output(self, response, result, spider):
    # ...

def process_start_requests(self, start_requests, spider):
    # ...

希望这有帮助。如果没有，请发布完整的中间件文件。

关于python - scrapy项目中间件-TypeError : process_start_requests() takes 2 positional arguments but 3 were given，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43718657/

29

4

0

文章推荐： Python pip SpaCy 安装 C++ 和 Murmurhash 时出错

文章推荐： asp.net-mvc - asp.net mvc 和身份验证示例

文章推荐： jquery - 单击排序列时 jqGrid 客户端数据消失

文章推荐： python - 使用 Spotfire 的日期过滤器和相对日期输入框

c - 应用程序接受 : *argument but not of the form argument* or *argument* 形式的命令行参数
例如，如果我的程序名称是 test.c 然后对于以下运行命令，argc = 2 而不是 4。 $test abc pqr* *xyz* 最佳答案尝试运行: $ echo abc pqr* *xyz*
flutter - “Positional arguments must occur before named arguments. Try moving all of the positional arguments before the named arguments”错误抖动
我正在尝试使用一个容器来显示TextField，但是该容器不喜欢我的操作顺序。这是我的代码: Widget build(BuildContext context) { return Scaffol
javascript - 未捕获的 SyntaxError : Unexpected eval or arguments in strict mode: window. gtag = (arguments) => dataLayer.push(arguments);
我有以下代码: class MetricGoogleGateway extends AMetricGateway{ constructor(id, name, token) {
javascript - this.argument 和 argument 之间的区别？
我像这样调用下面的对象方法。 new Cout( elem1 ).load( 'body' ) new COut( elem1 ).display( 'email' ) 我一次只使用一个实例。因为我一
c++ - 可变模板函数 : argument number for each argument
我正在尝试使用 C++11 中的可变参数函数模板，并通过如下代码了解了基本思想: void helper() { std::cout void helper( T&& arg ) {
javascript - "arguments"变量从哪里来 "this.callParent(arguments)"？
在学习 ExtJS 4 时，我发现在定义一个新类时，在 initComponent 中方法可以使用 this.callParent(arguments) 调用父类的构造函数. 我想知道这个 argum
swift 4 : Cannot convert value of type '(_) -> ()' to expected argument type '() -> ()' or Argument passed to call that takes no arguments
使用 XCode 9，Beta 3。Swift 4。 statsView.createButton("Button name") { [weak self] Void in //stuff st
javascript - 如果其中一个参数称为 `arguments` ，我可以获得 "arguments"对象吗？
以下代码将打印1: (function (arguments) { console.log(arguments); }(1, 2)); 实际上，arguments 对象已被覆盖。是否可以恢复函
php - 编译错误 : Cannot use positional argument after named argument
/** * @param $name * @return Response * @Route ("/afficheN/{name}",name="afficheN") */ public fu
Scala scopt : argument required() based on one or more other arguments
我习惯使用Scala scopt用于命令行选项解析。您可以选择参数是否为 .required()通过调用刚刚显示的函数。如何定义仅在定义了另一个参数时才需要的参数？例如，我有一个标志 --writ
python - 语法错误 : positional argument follows keyword argument:
所以这是我的代码: def is_valid_move(board, column): '''Returns True if and only if there is an o
python - 我该如何解决SyntaxError : positional argument follows keyword argument
我试图在这里运行此代码: threads = [threading.Thread(name='ThreadNumber{}'.format(n),target=SB, args(shoe_type,m
haskell - 输入 FP : Tuple Arguments and Curriable Arguments
在静态类型函数编程语言(例如 Standard ML、F#、OCaml 和 Haskell)中，编写函数时通常将参数彼此分开，并通过空格与函数名称分开: let add a b = a + b
javascript - 获取被调用者 Function.Arguments 之一的 Function.Arguments
function validateArguments(args) { if(args.length 2) { throw new RangeError("Invalid amo
django - 无反向匹配 : with arguments '()' and keyword arguments
我正在使用 Django 1.5 并尝试将参数传递到我的 URL。当我使用前两个参数时，下面的代码工作正常，使用第三个参数时我收到错误。我已经引用了新的 Django 1.5 更新中的 url 用法，
ember.js - emberjs : What does the . ..arguments in this._super(...arguments) 表示什么？
我刚刚开始使用 ember js 并且多次被这个功能绊倒有人可以简要介绍一下 this._super() 的使用，并解释 ...arguments 的重要性谢谢最佳答案每当您覆盖类/函数(例如
ios - 错误 : Argument passed to call that takes no arguments
这个问题在这里已经有了答案: How to fix an "Argument passed to call that takes no arguments" error? (2 个答案) 关闭 3
ios - 错误 : Argument passed to call that takes no arguments
我正在创建一个简单的登录注册应用程序。但是我遇到了错误，我不知道如何解决，请帮忙!这是我的代码: // // ViewController.swift // CHLogbook-Applicati
Swift 构造函数未出现在方法列表中， "Arguments passed to call that takes no arguments"
我是 Swift 的初学者。我尝试创建一个表示 Meal 的简单类。它有一些属性和一个返回可选的构造函数但是当我尝试测试它或在任何地方实例化它时，我得到的只是一个错误。似乎无法弄清楚发生了什么。
java - Linux 终端 : How to pass an argument to another argument
我有一个在特殊环境下运行其他程序的系统程序: cset shield -e PROGRAM .现在要运行一个 java 程序，我输入了 cset shield -e java PROGRAM ，但这不

首页

博学

6Ren·AI

商城

python - scrapy项目中间件-TypeError : process_start_requests() takes 2 positional arguments but 3 were given