python scrapy : spider follows links but won't download images-6ren

python scrapy : spider follows links but won't download images

转载作者：太空宇宙更新时间：2023-11-03 14:36:36

25

4

我已经构建了一个基本的crawlspider，用于从xkcd 中抓取漫画图像，并跟踪每个漫画的链接并继续抓取。蜘蛛可以很好地跟踪链接，但我在实际抓取图像时遇到了麻烦。

我尝试了多个 xpath 和 css 选择器以及编写 parse_item 方法的方法，但由于 scrapy 尝试使用 url 的第一个字母作为完整 url，或者无法散列类型“列表”错误，我要么收到错误，要么收到错误并且已经没有想法了。

蜘蛛:

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class XkcdSpider(CrawlSpider):
    name = 'xkcd'
    allowed_domains = ['xkcd.com']
    start_urls = ['http://xkcd.com/']

    rules = (
    Rule(LinkExtractor(allow=r'\/\d{4}\/', unique=True),
         callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        relative_url = response.xpath(
            '//*[@id="comic"]/img/@src').extract_first()

        absolute_url = response.urljoin(relative_url)
        i['image_urls'] = absolute_url
        return i

项目:

import scrapy


class XkcdItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    images = scrapy.Field()
    image_urls = scrapy.Field()

图像管道设置如下:

ITEM_PIPELINES = {
   'scrapy.pipelines.images.ImagesPipeline': 1,
}

回溯是这样的:

TypeError: unhashable type: 'list'

或者这个:

ValueError: Missing scheme in request url: h

我的理解是scrapy尝试使用url的第一个字母而不是整个内容，但我找不到让它工作的方法，只尝试了.extract()而不是 extract_first() 但这不起作用。

非常感谢任何帮助

最佳答案

试试这样

srcs = response.xpath('//*[@id="comic"]/img/@src').extract()
i['image_urls'] = [response.urljoin(src) for src in srcs]

您可能已经完成了此操作，但为了以防万一，请务必正确设置 IMAGES_STORE 设置。

关于 python scrapy : spider follows links but won't download images，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46892962/

25

4

0

文章推荐： python - 如何从无关的嵌套中清除 Python 列表？

文章推荐： c# - 异步操作中的异步操作

文章推荐： apache - 安装 SSL 后出现 ERR_SSL_PROTOCOL_ERROR

文章推荐： python - 我可以将函数设置为默认参数吗？

javascript - 使用 link & 打开 Accordion
我通常从以下位置获取代码:https://www.w3schools.com .这个代码还有一个 Accordion ；但是，当我使用链接 -> 到 Accordion 时， Accordion 不
java - libjvm.so : to link or not to link?
我见过的所有 JNI 指南(例如 JNI runtime linking )都建议我将 JNI 库链接到 libjvm.so: $ gcc -I${JAVA_HOME}/include -c -o t
swift - 谷歌地图 : Universal link format - destination coordinates - "Unsupported Link Google Maps can' t open this link"
实现以下目标的正确 URL 格式是什么: 使用 Universal Link 在 iOS 上的另一个应用程序中打开 Google map 应用程序。根据两个坐标设置目的地:纬度和经度，并让用户选择交
incremental-linking - "incremental linking"是什么？
我已经查看了 Microsoft 的 MSDN 和整个网络，但我仍然无法很好地了解它是什么。这是否意味着已完成的程序在执行期间的不同时间加载 DLL，而不是在启动时一次性加载所有 DLL？我完全偏
html - A :link supersedes . 类 A :link?
我有一个看起来像这样的 css: .browse-link A:link { color: #F6CA4C; text-decoration: none; } .browse-link
javascript - 我怎样才能使外观滚动然后直接转到#link 而不是直接转到#link？
当我点击“产品”链接时，它突然指向#link。我怎样才能使它的外观看起来像滚动然后转到产品？请帮帮我。 vStudy function big(x){
ruby - 更改参数[ :link] before @link. 保存
我想在保存之前更改从输入字段中获取的值。 params[:link]['url'] = "www.facebook.com/redbull" 现在我只想将“redbull”放入数据库。以下代码失败，因
linked-list - C 编程 : Linked Lists
我正在使用链表编写程序(真是一场噩梦)。无论如何，该程序的目的是输入 8 个字符，然后让程序将字符打印回给您，并以相反的顺序打印回字符，当然是使用链表。到目前为止我已经明白了。它有很多错误(我认为
ckeditor - 如何从CKeditor中的 "link to anchor"编辑器中删除 "Link"
基本上，我删除了 anchor 按钮，因此链接窗口中不应该有指向 anchor 选项的链接。有什么方法可以删除该下拉选项？最佳答案想通了 if ( dialogName == 'link' )
SQL服务器: Linked-servers without linking servers?
我的本地(和远程)SQL SERVER 2005 管理员都声称“允许链接服务器是一个安全问题”并禁止在此处使用它们。 (哈？) 无论如何，有没有办法在没有链接服务器的情况下做类似的事情？ SELE
Java初学者: How do I link one linked list to another?
如果我有: linkedlist1= 1,2,3,4; 和 linkedlist2= 5,6,7; 如果我调用: linkedlist2.set(0,9999) 它会更改为 linkedlist2 =
javascript - React 是如何工作的？中的绝对路径
首先，如果这个问题看起来很愚蠢，我很抱歉，但我仍在学习 React 和 html。所以问题是我的 react 代码中有一个按钮标签，它为我提供了一些关于进入我提供的特定链接的逻辑。我的 Button.
javascript - JS : Replace a link with a link. 并且该链接带有链接
我将制作一个文本 block ，这样如果您单击一个单词，它就会被词汇替代品所替换。例如“fearful-of-cats”是“ailurophobic”的词汇替代品，因为如果您在任何文本中将后者替换为
HTML/CSS : Clickable link over a larger link
我有以下代码 Can you click me? 目标是我可以点击“你能点击我吗”框并转到 google 并在包含 div 的任何其他地方
javascript - Link on Link - 如何在没有父链接激活的情况下激活 JS 代码？
这是一个案例: 默认情况下，如果我点击#2、#3、#4、#5，我将被重定向到#1。如果我想在没有 #1 激活的情况下点击输入，我该如何修复 CSS？提前
css - 继承一个 :visited link with color of the link
有没有什么快速的方法可以使 :visited 链接的颜色与链接本身的颜色相同？例如: * {color:black} a:link {color:blue} a:visited {color:inh
iOS Deep linking and Universal link，如何在ios中进行深度链接
我读到从 iOS 9 开始，引入了通用链接。请解释深层链接和通用链接之间的区别。我的目标是，一个链接将通过邮件发送给客户。让邮件说有一个项目 A 的报价和一个链接。单击链接时如果安装了该应用程序，则
CSS:a:link 与 a(没有 :link 部分)
因此我们需要对 CSS anchor 伪类使用以下顺序 a:link { color: red } a:visited { color: blue } a:hover { color
reactjs - React 将 url 附加到组件的当前路径
我组件的当前路径是http://localhost:3000/dashboard/questionnaire/5bf79ff4c45a150015cef7a9在这个组件里面有 Financials 如
bash - 将绝对符号链接(symbolic link)转换为相对符号链接(symbolic link)
我 rsync 目录“Promotion”包含两台具有不同目录结构的机器之间的绝对符号链接(symbolic link)。因此绝对符号链接(symbolic link)在两台机器上都不起作用。为了使它

首页

博学

6Ren·AI

商城

python scrapy : spider follows links but won't download images