gpt4 book ai didi

image - 在scrapy中下载图像

转载 作者:行者123 更新时间:2023-12-04 11:08:48 26 4
gpt4 key购买 nike

我正在尝试通过scrapy下载图像。这是我的不同文件:

项目.py

class DmozItem(Item):
title = Field()
image_urls = Field()
images = Field()

设置.py
BOT_NAME = 'tutorial'

SPIDER_MODULES = ['tutorial.spiders']
NEWSPIDER_MODULE = 'tutorial.spiders'
ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline']
IMAGES= '/home/mayank/Desktop/sc/tutorial/tutorial'

蜘蛛
class DmozSpider(BaseSpider):
name = "wikipedia"
allowed_domains = ["wikipedia.org"]
start_urls = [
"http://en.wikipedia.org/wiki/Pune"
]

def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
images=hxs.select('//a[@class="image"]')
for image in images:
item = DmozItem()
link=image.select('@href').extract()[0]
link = 'http://en.wikipedia.com'+link
item['image_urls']=link
items.append(item)

尽管进行了所有这些设置,但我的管道没有被激活。请帮忙。我是这个框架的新手。

最佳答案

一、settings.py : 图片 -> IMAGES_STORE

二、spider : 你应该返回一个 item以便 ImagesPipeline可以下载那些图片。

item = DmozItem()
image_urls = hxs.select('//img/@src').extract()
item['image_urls'] = ["http:" + x for x in image_urls]
return item

关于image - 在scrapy中下载图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16044616/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com