python - 如何从 2 个不同的部分抓取项目？-6ren

python - 如何从 2 个不同的部分抓取项目？

转载作者：行者123 更新时间：2023-11-28 19:21:35

25

4

我是 Scrapy 和网络爬虫的新手，我一直在 www.mercadolibre.com.mx 页面上工作，我必须(从起始页)获得一些关于那里显示的产品的数据(描述和价格)。这是我的 items.py:

from scrapy.item import Item, Field

class PruebaMercadolibreItem(Item):
    producto = Field()
    precio = Field()

这是我的蜘蛛:

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from prueba_mercadolibre.items import PruebaMercadolibreItem

class MLSpider(BaseSpider):
    name = "mlspider"
    allowed_domains = ["mercadolibre.com"]
    start_urls = ["http://www.mercadolibre.com.mx"]

    def parse (self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("//div[@class='item-data']")
        items = []
        for titles in titles:
            item = PruebaMercadolibreItem()
            item["producto"] = titles.select("p[@class='tit    le']/@title").extract()
            item["precio"] = titles.select("span[@class='ch-price']/text()").extract()
            items.append(item)
        return items

问题是当我更改此行时得到相同的结果:

    titles = hxs.select("//div[@class='item-data']")

对此:

    titles = hxs.select("//div[@class='item-data'] | //div[@class='item-data item-data-mp']")

而且我没有得到与使用第一行时相同的数据。

谁能帮帮我？我的 xPath 选择有什么错误吗？

我也找不到将 MySQL 与 scrapy 一起使用的好教程，如果有任何帮助，我将不胜感激。谢谢

最佳答案

如果你想获得所有包含 item-data 类的 div 标签，最好使用 contains:

titles = hxs.select("//div[contains(@class, 'item-data')]")

此外，您在蜘蛛中还有其他问题:

循环，你正在覆盖 titles
producto xpath 中的类名应该是title，而不是tit le
您可能不希望在 Field 值中包含列表，从 extract 中获取第一个项目编辑列表
HtmlXPathSelector 已弃用，请使用 Selector相反
select() 已弃用，请使用 xpath()相反
BaseSpider 已重命名为 Spider

修改后的代码:

from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.item import Item, Field
from prueba_mercadolibre.items import PruebaMercadolibreItem    


class MLSpider(Spider):
    name = "mlspider"
    allowed_domains = ["mercadolibre.com"]
    start_urls = ["http://www.mercadolibre.com.mx"]

    def parse (self, response):
        hxs = Selector(response)
        titles = hxs.xpath("//div[contains(@class, 'item-data')]")
        for title in titles:
            item = PruebaMercadolibreItem()
            item["producto"] = title.xpath("p[@class='title']/@title").extract()[0]
            item["precio"] = title.xpath("span[@class='ch-price']/text()").extract()[0]
            yield item

输出中的示例项目:

{'precio': u'$ 35,000', 'producto': u'Cuatrimoto, Utv De 500cc 4x4 ,moto , Motos, Atv ,'}
{'precio': u'$ 695', 'producto': u'Reloj Esp\xeda Camara Oculta Video Hd 16 Gb! Sony Compara.'}

关于python - 如何从 2 个不同的部分抓取项目？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23862187/

25

4

0

文章推荐： html - CSS 网格中的最后一行不适合我的 html

文章推荐： objective-c - ARC 和重用指针会耗尽内存

文章推荐： iphone - 在 IOS 自定义短信编辑器中发送短信

文章推荐： iphone - 如何更新激活推送通知的应用程序

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

python - 如何从 2 个不同的部分抓取项目？