python - Scrapy:遍历文档-6ren

python - Scrapy:遍历文档

转载作者：太空宇宙更新时间：2023-11-03 17:13:23

这是我正在使用的文档的一部分的模型。我想做的是首先找到时间和成本元素，然后从那里找到它们各自的值。我尝试过各种轴选择器，但一无所获。我不会直接转到“时间”和“成本”元素，我需要找到它们与其关联的 h4 的关系。

<ul class="events">
  <li id="event-123456" class=eventItem>
    <div class="details">                
      <h4>Time</h4>
      <div>
        <p>17:00</p>
      </div>
      <h4>Cost</h4>
      <div>
      <p>10.00</p>
      </div>
    </div>
  </li>
  <li id="event-678901" class=eventItem>
    <div class="details">                
      <h4>Time</h4>
      <div>
        <p>21:00</p>
      </div>
      <h4>Cost</h4>
      <div>
      <p>20.00</p>
      </div>
    </div>
  </li>
</ul>

这是解析器的骨架

def parse(self, response):
        Events = response.xpath('//ul')
        for event in Events:
            item['cost'] = event.xpath(???)
            item['time'] = event.xpath(???)

最佳答案

following-sibling在这里会有帮助:

events = response.xpath('//ul[@class = "events"]/li')
for event in events:
    item = MyItem()

    item['cost'] = event.xpath(".//h4[. = 'Cost']/following-sibling::div/p/text()").extract_first()
    item['time'] = event.xpath(".//h4[. = 'Time']/following-sibling::div/p/text()").extract_first()

    yield item

关于python - Scrapy:遍历文档，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33878714/

文章推荐： c# - 调用函数的错误是什么？

文章推荐： C#计算小数

文章推荐： shell - tar:存档中出现意外的 EOF

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - Scrapy:遍历文档