python - scrapy CSV 写作-6ren

python - scrapy CSV 写作

转载作者：太空宇宙更新时间：2023-11-04 03:09:27

24

4

作为新用户，我设法制作了一个蜘蛛可以爬行的电子商务网站并提取每个产品的标题和变体以及输出的 CSV 文件和产品线，但我希望的是这是逐行的变化，请有人帮助我推进我的项目。

我很期待这个问题，但不幸的是我找不到答案。

我的蜘蛛:

import scrapy
from w3lib.html import remove_tags
from products_crawler.items import ProductItem


class DemostoreSpider(scrapy.Spider):
    name = "demostore"
    allowed_domains = ["adns-grossiste.fr"]
    start_urls = [
         'http://adns-grossiste.fr/17-produits-recommandes',
]
download_delay = 0.5

def parse(self, response):
    for category_url in response.css('#categories_block_left > div > ul  > li ::attr(href)').extract():
        yield scrapy.Request(category_url, callback=self.parse_category, meta={'page_number': '1'})

def parse_category(self, response):
    for product_url in response.css('#center_column > ul > li > div > div.right-block > h5 > a ::attr(href)').extract():
        yield scrapy.Request(product_url, callback=self.parse_product)

def parse_product(self, response):
    item = ProductItem()
    item['url'] = response.url
    item['title'] = response.css('#center_column > div >   div.primary_block.clearfix > div.pb-center-column.col-xs-12.col-sm-7.col- md-7.col-lg-7 > h1 ::text').extract_first()
    item['Déclinaisons'] = remove_tags(response.css('#d_c_1852 > tbody   >tr.combi_1852.\31 852_155.\31 852_26.odd > td.tl.sorting_1 > a > span  ::text').extract_first() or '')
    yield item

样本 CSV 希望: image CSV

最佳答案

查看 official docummentation here

简而言之，有两种方法，最简单的方法就是使用爬网命令参数 --output 或 -o 简而言之。例如:

scrapy crawl myspider -o myspider.csv

Scrapy 会自动将生成的项目转换为 csv 文件。有关更详细的方法，请查看开头发布的文档页面。

关于python - scrapy CSV 写作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38553178/

24

4

0

文章推荐： json - 访问 json 的属性

文章推荐： c - 尝试使用线程和计时器通过 UDP 发送两条不同的消息失败

文章推荐： node.js - 如何管理 RESTful API 的权限

文章推荐： c - realloc 后奇怪的字符

f# - ExcelProvider - 写作？
我正在尝试使用 http://fsprojects.github.io/ExcelProvider/ 中的 ExcelProvider .我不确定我是否遗漏了什么，但有什么方法可以实际编写 Excel
C - 结构问题 - 写作
我正在用 C 编写程序，我想我在内存方面遇到了一些麻烦。所以我的问题是:我有 2 个返回结构的函数。当我一次只运行一个函数时，我没有任何问题。但是当我一个接一个地运行时，我在写入第二个结构时总是会出
python - 蜘蛛不抓取页面/写作
我正在使用以下代码通过 scrapey 抓取数据: from scrapy.selector import Selector from scrapy.spider import Spider clas
python - 文件处理，写作，阅读
我偶然发现了文件处理问题，第二行无缘无故为您提供9的值，第三行给出错误io.UnsupportedOperation:不可读 c = open("Test.txt", "w+") c.write(
Python - CSV 写作 - 切断最后几行
我正在向 CSV 文件写入一个函数(正在运行)，但是它在最后一行中被中途切断。我知道这可能与文件的关闭有关，但我认为我做得正确。有什么可能出错的地方吗？ from itertools import
python - scrapy CSV 写作
作为新用户，我设法制作了一个蜘蛛可以爬行的电子商务网站并提取每个产品的标题和变体以及输出的 CSV 文件和产品线，但我希望的是这是逐行的变化，请有人帮助我推进我的项目。我很期待这个问题，但不幸的是我
android - 是否值得为 Honeycomb 写作？
我只是一个在业余时间编写 iOS 和 Andorid 应用程序的人。我有一些 Android 应用程序，我认为它们很适合进行更新，使它们能够在 Honeycomb 上本地运行。但是，由于我没有 Ho
csv - Dart CSV 写作
嘿，所以我并没有真正弄乱它太多，但我想知道是否真的有一种方法(在我陷入无休止的兔子洞之前)在 Dart/Flutter 中读取和写入 CSV 文件？我需要写入文件，不一定要读取它们，而且我愿意为此付出
parsing - OCaml + Menhir 编译/写作
当谈到 OCaml 时，我是一个完整的新手。我最近才开始使用该语言(大约 2 周前)，但不幸的是，我的任务是为一种组合语言制作一个语法分析器(解析器 + 词法分析器，其功能是接受或不接受句子)使用门希
c# - .net registry 阅读写作
你能给我一些很好的引用资料吗，我可以如何通过 .net 资源读写注册表？我查看了网站，找不到任何有用的信息。最佳答案检查 BCL 中的 Registry 类 http://msdn.micros
c - 哪个 NoSQL 数据库适合 MoSTLy 写作
我正在开发一个可以生成大量数据并将其存储到磁盘的系统。该公司之前开发的一个系统使用普通文件来存储其数据，但由于多种原因，它变得非常难以管理。我相信 NoSQL 数据库对我们来说是很好的解决方案。我们
c++ - 写作 void fun(int *tab);和 void fun(int tab[]) 是一样的吗？
如主题标题。当我写:void fun(int *tab){} 和写 void fun(int tab[]){} 一样吗？最佳答案是的。 void fun(int *tab){} void fun(
python - 关闭 python pypdf 的问题 - 写作。获取 valueError : I/O operation on closed file
想不通此函数(用于将互联网站点抓取为 pdf 的类的一部分)应该合并使用 pypdf 从网页生成的 pdf 文件。这是方法代码: def mergePdf(self,mainname,inputli

首页

博学

6Ren·AI

商城

python - scrapy CSV 写作