gpt4 book ai didi

python - 在 Python 中使用 LXML 解析 HTML

转载 作者:搜寻专家 更新时间:2023-10-31 21:58:07 25 4
gpt4 key购买 nike

我正在尝试为

解析一个网站
blahblahblah 
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

(其中有很多,我希望它们都以某种标记化的形式出现)。不幸的是,HTML 非常大而且有点复杂,因此尝试沿着树向下爬行可能会花费我一些时间来整理嵌套元素。有没有简单的方法来检索它?

谢谢!

最佳答案

如果你只是想要 a 标签的 href,那么使用:

data = """blahblahblah 
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

关于python - 在 Python 中使用 LXML 解析 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14663659/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com