gpt4 book ai didi

python - 使用 lxml 解析器的 HTML getnext

转载 作者:太空宇宙 更新时间:2023-11-03 18:36:12 28 4
gpt4 key购买 nike

我正在尝试解析带有 html 代码的页面,如下所示:

<html>
..
<h2><span id='identifiedid'>Identified Header<span>...</span></span></h2>
<ul>
<li><a href='links i want'></a>...</li>
<li><a href='links i want'></a>...</li>
<li><a href='links i want'></a>...</li>
</ul>
..
</html>

我正在使用 Python 代码通过 lxml 解析器来解析页面。我能够识别使用 xpath 指示的元素的 id。但是,我需要访问的链接没有类/id 来识别它们,而且它们也不在 id 的范围内。有什么办法可以访问相邻元素的这些链接吗?我尝试过 getnext(),但它无法访问 ul 和 li 元素

最佳答案

您可以使用 getparent() 获取 span 的父元素,然后使用 getnext()< 获取 ul 元素:

root = etree.XML(open("lx.xml").read())
span = root.xpath("//span[@id='identifiedid']")[0]
print span.getparent().getnext().xpath('li/a/@href')

关于python - 使用 lxml 解析器的 HTML getnext,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21551266/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com