gpt4 book ai didi

python - 如何通过匹配字符串在Python中提取父html标签

转载 作者:可可西里 更新时间:2023-11-01 12:52:33 28 4
gpt4 key购买 nike

我需要通过匹配html中的字符串来提取html中的父标签。(IE) 我有很多原始的 html 资源。每个来源都包含带有一些字符的文本值 "VIN:*"**。此文本值 (VIN:*) 以各种格式放置在每个源中,如“< ul >”、“< div >”等。

然后我需要提取所有值以及“VIN:*”字符串。这意味着我需要获取它的父标签。

例如,

<div class="class1">

Stock Number:
Z2079
<br>
**VIN:
2T2HK31UX9C110701**
<br>
Model Code:
9424
<img class="imgcert" src="/images/Lexus_cpo.jpg">
</div>

这里我有 html 源的“VIN”。与此类似,我也有不同格式的其他 html 源的 VIN。

必须在 Python 中提取这些值。

有没有办法通过匹配Python中的字符串来提取父标签也很有效?

最佳答案

强烈推荐使用BeautifulSoup就此;它为解析 HTML 提供了一些非常方便的功能。例如,在这两种情况下,我将如何查找包含“VIN”的每个文本节点:

soup = your_html_here
vins = soup.findAll(text = lambda(x): x.lower.index('vin') != -1)

从那里,您只需遍历该集合,获取每个节点的父节点,获取所述父节点的内容,然后按照您认为合适的方式解析它们:

for v in vins:
parent_html = v.parent.contents
# more code here

关于python - 如何通过匹配字符串在Python中提取父html标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8678187/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com