gpt4 book ai didi

python - 如何在python的scrapy选择器中只提取文本

转载 作者:IT老高 更新时间:2023-10-28 21:05:52 25 4
gpt4 key购买 nike

我有这个代码

   site = hxs.select("//h1[@class='state']")
log.msg(str(site[0].extract()),level=log.ERROR)

输出是

 [scrapy] ERROR: <h1 class="state"><strong>
1</strong>
<span> job containing <strong>php</strong> in <strong>region</strong> paying <strong>$30-40k per year</strong></span>
</h1>

是否可以只获取没有任何html标签的文本

最佳答案

//h1[@class='state']

在您上面的 xpath 中,您正在选择具有 class 属性 state

h1 标记

这就是为什么它选择 h1 元素

中的所有内容

如果你只想选择 h1 标签的文本,你所要做的就是

//h1[@class='state']/text()

如果你想选择 h1 标签的文本以及它的子标签,你必须使用

//h1[@class='state']//text()

所以区别是 /text() 用于特定标签文本,而 //text() 用于特定标签及其子标签的文本

下面提到的代码适合你

site = ''.join(hxs.select("//h1[@class='state']/text()").extract()).strip()

关于python - 如何在python的scrapy选择器中只提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13489473/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com