gpt4 book ai didi

python - scrapy抓取html源代码

转载 作者:行者123 更新时间:2023-12-01 04:51:18 25 4
gpt4 key购买 nike

我正在使用 scrapy 来抓取和抓取网站。我需要整个 html 而不是组件。我们可以使用 xpath 选择器轻松提取组件,但是有没有任何方法可以提取给定类的整个 html block 。例如,在下面的 html 代码中,我需要整个 div block prod-basic-info 的确切 html 源代码。无论如何我可以做到这一点吗?

<div class="block prod-basic-info">
<h2>Product information</h2>
<p class="product-info-label">Category</p>
<p>
<a href="xyz.html"</a>
</p>
</div>

最佳答案

只需将您的 xpath 表达式或 CSS 选择器指向该元素和 extract()它:

response.xpath('//div[contains(@class, "prod-basic-info")]').extract()[0]
response.css('div.prod-basic-info').extract()[0]

关于python - scrapy抓取html源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28403375/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com