gpt4 book ai didi

Python用lxml解析html : get text of tag while specific sign causes problems

转载 作者:太空宇宙 更新时间:2023-11-03 17:14:19 25 4
gpt4 key购买 nike

我正在使用 lxml 解析真实世界的 HTML 文件。这意味着,我想从标签中提取信息,但我无法控制样式。我遇到的问题在于数据。

<fieldset>
<legend>
<strong>Notes</strong>
</legend>
Slav *kǫda 'thither', kǫdě 'where, whither' < IE *k(w)om-d(h)
</fieldset>

问题是由于数据中的符号<,lxml的HTML解析器将跳过文本和结束标记,但这正是我想要提取的文本。我可以应用任何解决方案来从此标签中获取文本吗?

最佳答案

HTML 实际上是 broken one

您可以使用 BeautifulSoup 来解析它和一个宽松的 html5lib 解析器:

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup


data = u"""
<fieldset>
<legend>
<strong>Notes</strong>
</legend>
Slav *kǫda 'thither', kǫdě 'where, whither' < IE *k(w)om-d(h)
</fieldset>
"""

soup = BeautifulSoup(data, "html5lib")
print(soup.fieldset.legend.next_sibling.strip())

打印:

Slav *kǫda 'thither', kǫdě   'where, whither' < IE *k(w)om-d(h)

关于Python用lxml解析html : get text of tag while specific sign causes problems,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33786869/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com