python - 无法在 scrapy 中找出正确的循环-6ren

python - 无法在 scrapy 中找出正确的循环

转载作者：太空宇宙更新时间：2023-11-03 12:09:22

26

4

我是新手。

这是我的蜘蛛:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from ampa.items import AmpaItem

class AmpaSpider(CrawlSpider):
    name = "ampa"
    allowed_domains = ['website']
    start_urls = ['website/page']


rules = (Rule(SgmlLinkExtractor(allow=('associados?', ), deny=('associado/', )), callback='parse_page', follow=True),)

def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    item = AmpaItem()
    farmers = hxs.select('//div[@class="span-24 tx_left"]')
    item['nome'] = farmers.select('//div/h3[@class="titulo"]/a/text()').extract()
    item['phone'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "Telefone")]/text()').extract() 
    item['email'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "E-mail")]/text()').extract()
    print item.values()
    return item

这是我的管道:

class CsvWriterPipeline(object):

def __init__(self):
    self.csvwriter = csv.writer(open('items.csv', 'wb'))

def process_item(self, item, ampa):
    self.csvwriter.writerow([item['nome'], item['phone'], item['email']])   
    return item

该网站的每个页面都有一个姓名、电话和电子邮件列表。上面的代码将输出一个 csv 文件，其中每页包含三列和一行。在第一列中，每个单元格都是该页面中所有姓名的列表，在第二列中，它们是所有电话的列表，在第三列中，它们是所有电子邮件的列表。

我真正想做的是将每个姓名、电话和电子邮件放在单独的行中。我试图通过遍历每个项目来做到这一点，但它只打印名字，每页上的电话和电子邮件。 (是不是因为每次函数spider返回一个item时callback都会将爬虫移动到下一个URL)(是吗？？？)

你会怎么做？

这是项目:

from scrapy.item import Item, Field

class AmpaItem(Item):
nome = Field()
phone = Field()
email = Field()

最佳答案

根据您在 farmes 中使用的复数形式，我假设页面上有很多农民。所以你的表达式可能会返回一组农民。

你能遍历农民的结果并产出每一项吗？

#pseudocode
hxs = HtmlXPathSelector(response)
farmers = hxs.select('//div[@class="span-24 tx_left"]')
for farmer in farmer:
    item = AmpaItem()
    #be sure to select only one desired farmer here
    item['nome'] = farmers.select('//div/h3[@class="titulo"]/a/text()').extract()
    item['phone'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "Telefone")]/text()').extract() 
    item['email'] = farmers.select('//div/span[@class="chamada"]/a[contains(text(), "E-mail")]/text()').extract()
    yield item

关于python - 无法在 scrapy 中找出正确的循环，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12412091/

26

4

0

文章推荐： php - 在一个查询中对不同表进行多次插入

java - 找出/计算符号的宽度
找出/计算符号的宽度 panel.add(textfield,BorderLayout.SOUTH); system.out.println(textfield.getWidth()); System
php - 找出 2 个数字与某物相加并与某物相乘
嘿，所以我正在制作一个因式分解程序，我想知道是否有人可以给我任何想法，让我知道如何找到一个有效的方法来找到两个数字乘以指定数字的倍数，以及添加到指定数字。例如我可能有 (a)(b) = 6 a +
gwt - 找出 GWT 模块何时加载
我以以下方式将 GWT 方法导出到 native javascript: public class FaceBookGalleryEntryPoint implements EntryPoint {
silverlight - 找出 Silverlight 命名空间和程序集
通常，当您在 Web 上找到 Silverlight 代码示例时，它可能只包含一段代码，而不是使其工作所需的完整代码集。当我试图确定在 xaml 文件顶部使用什么命名空间和/或程序集声明时，这让我感到
dojo - 找出 Dojo 的版本
我对 Dojo 工具包有点陌生。有些问题我想得到启发(我用谷歌搜索，但没有得到任何合适且令人满意的答案) 我已经在运行的应用程序(由另一个软件开发人员开发)中有一个 dojo.js(也许是下载的未压缩
javascript - 找出 HTML 表格中的哪一行被点击
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How to detect which row [ tr ] is clicked? 我有一个这样的表:
iphone - 找出 iOS 中特定文件的数据保护类别
我目前正在尝试找出特定应用程序使用的数据保护类别。我的第一个方法是使用未加密的 iTunes 备份来确定所使用的保护类别。我用过this提取备份。但现在我要陷入困境了。此外，我不太确定 iTune
iphone - 找出 nsrangeException 的来源
我有一个 NSRangeException 错误，该错误并不总是发生(尤其是在调试时)。它是随机出现的，我无法弄清楚它来自哪里。我有很多数组操作，因此很难以这种方式消除它。我的问题是我是否可以从调试
cocoa - 找出 Foundation 可执行文件中的工作文件夹？
我有一个控制台程序，它链接到 Mac 上的 Foundation 框架。如何找到可执行文件所在的文件夹？最佳答案即使该工具不在 bundle 中，您仍然可以使用一些 NSBundle 方法。例如:
cocoa - 找出 Cocoa 中可执行文件的位置
简单的问题是:如何找出 Cocoa 应用程序中可执行文件的位置。请记住，在许多类 Unix 操作系统中，人们使用 PATH 环境来为其可执行文件分配首选位置，特别是当他们的系统中有同一应用程序的多个
delphi - 找出 TGridPanel 中控件的位置
如何找出 TGridPanel 内控件的位置(行和列索引)？我想对按钮数量使用常见的 OnClick 事件，并且需要知道按钮的 X、Y 位置。我使用的是 Delphi 2007。最佳答案不幸的是
.net - 找出 .NET 中的总磁盘空间和可用磁盘空间
我试图找到一种方法来确定 .NET 应用程序中任意文件夹中的总磁盘空间和可用磁盘空间。文件夹中的“总磁盘空间”和“可用磁盘空间”是指如果您对其执行“dir”命令，该文件夹将报告的总磁盘空间和可用磁盘空
unix - 找出 POSIX 系统上是否存在命令
我希望能够通过 shell 脚本判断任何 POSIX 系统上是否存在命令。在 Linux 上，我可以执行以下操作: if which ; then ...snip... fi 但是，Solar
haskell - 找出 Haskell 函数的复杂性
如何找到不同 Haskell 函数的复杂性(以 big-O 表示)？例如， subsequences 的复杂度是多少？ ? 最佳答案您只能通过查看代码来计算函数的确切复杂度。但是，您可以使用 cr
.net - 找出 .NET 对象的大小
我试图找出我的对象占用了多少内存来查看有多少对象最终出现在 Large Object Heap 上。 (超过 85,000 字节)。是否像为每个对象添加 4(表示 int)、添加 8(表示 long
vim - 找出 Vim 中加载的文件类型
一旦我在 Vim 中加载任何文件，它就会尝试检测该文件，并在可能的情况下用颜色突出显示它。我想知道一个 Vim 命令，它会告诉我 Vim 认为哪个 ftplugin 或文件类型插件/文件类型会突出显
javascript - 找出 querySelector 的哪一部分与给定元素匹配
是否有可能找出 querySelector 的哪一部分与 DOM 中的特定元素匹配？假设您有以下查询: 'h1,h2,h3,h4.custom-bg,div' 如果您使用 document.quer
registry - 找出 Windows 的安装语言为
我遇到一个问题，用户设置的区域设置(德语)与安装的语言 Windows(英语)不同。有没有办法发现安装的 Windows 语言与用户设置的区域设置？我应该注意的问题是我正在创建共享，并且根据区域设置设
java - 找出 Android 存储文件的位置
我正在写入应用程序中的文件。我想找到该文件以检查该文件是否已正确写入(以便我可以通过 Web View 访问该文件)。这是我用来编写文件的代码: try { FileOutputStream
java - 找出 HashMap 中使用的类型
我有一个从 JSON 文件填充的 HashMap。键值对中的值可以是两种不同的类型 - 字符串或其他键值对。例如: HashMap hashMap = new Map(); JSON 文件看起来有点

首页

博学

6Ren·AI

商城

python - 无法在 scrapy 中找出正确的循环