gpt4 book ai didi

python - 抓取错误 : TypeError: __init__() got an unexpected keyword argument 'callback'

转载 作者:太空宇宙 更新时间:2023-11-04 00:48:15 24 4
gpt4 key购买 nike

我试图通过提取其中包含“huis”(荷兰语中的“house”)的所有链接来抓取网站。正在关注http://doc.scrapy.org/en/latest/topics/spiders.html , 我在努力

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

from Funda.items import FundaItem

class FundaSpider(scrapy.Spider):
name = "Funda"
allowed_domains = ["funda.nl"]
start_urls = [
"http://www.funda.nl/koop/amsterdam/"
]

rules = (
Rule(LinkExtractor(allow=r'.*huis.*', callback='parse_item'))
)

def parse_item(self, response):
item = FundaItem()
item['title'] = response.extract()
return item

但是,我收到了错误消息

Rule(LinkExtractor(allow=r'.*huis.*', callback='parse_item'))
TypeError: __init__() got an unexpected keyword argument 'callback'

从之前的帖子 (Scrapy Error: TypeError: __init__() got an unexpected keyword argument 'deny') 看来,可能的原因是括号不匹配,因此关键字被传递给 Rule 而不是 LinkExtractor。然而,在我看来,在这种情况下,callback 按预期位于 LinkExtractor 括号内。

知道是什么导致了这个错误吗?

最佳答案

是的,callback 肯定会传递给 LinkExtractor。实际上,这似乎是问题所在,因为我在 the documentation 中的该类的预期参数下没有看到 callback .

我看到 Rule确实 有一个在文档中列出的回调参数。所以也许您应该将它传递给 Rule 而不是 LinkExtractor?

Rule(LinkExtractor(allow=r'.*huis.*'), callback='parse_item')

如果您在想“但是为什么链接问题的回答者将 callback 放在 LinkExtractor 调用中?”,我认为您可能误解了嵌套括号,诚然这有点令人困惑。更改布局使其更清晰:

rules = (
Rule(
LinkExtractor(
allow=[r'/*'],
deny=('blogs/*', 'videos/*', )
),
callback='parse_html'
),
)

关于python - 抓取错误 : TypeError: __init__() got an unexpected keyword argument 'callback' ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38335472/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com