gpt4 book ai didi

python - 使用 scrapy - python 进行 HXS 过滤

转载 作者:太空宇宙 更新时间:2023-11-03 15:23:39 25 4
gpt4 key购买 nike

我是这个领域的新手,我需要更多信息。我在互联网上找不到任何信息。例如现在我使用这个函数 hxs.select('//div[@id="CategoryBreadcrumb"]//text()').extract() 。在这个 div 中,我有 ulli,每个 li 中都有 anchors但一个。我需要 li 中没有 a 标签的文本。如果您也提供任何有关 hxs 过滤的教育链接,我将不胜感激。提前致谢!如果您无法想象我需要什么,这里有一个示例。

<div id='CategoryBreadcrumb'>
<ul>
<li><a href=#>I dont need</a></li>
<li><a href=#>I dont need</a></li>
<li><a href=#>I dont need</a></li>
<li>Text that i need</li>
</ul>
</div>

最佳答案

尝试:

hxs.select('//div[@id = "CategoryBreadcrumb"]/ul/li/text()')

要了解有关 XPath 的更多信息,请参阅 w3schools对于基础知识,和w3.org获取完整规范。


PS:scrapy使用的是lxml。您可以使用如下代码测试您的 XPath:

import lxml.html as LH

text = '''
<div id='CategoryBreadcrumb'>
<ul>
<li><a href=#>I dont need</a></li>
<li><a href=#>I dont need</a></li>
<li><a href=#>I dont need</a></li>
<li>Text that i need</li>
</ul>
</div>
'''

doc = LH.fromstring(text)
print(doc.xpath('//div[@id = "CategoryBreadcrumb"]/ul/li/text()'))

# ['Text that i need']

关于python - 使用 scrapy - python 进行 HXS 过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10775573/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com