gpt4 book ai didi

python - 使用 html5lib 将 HTML 片段转换为纯文本

转载 作者:太空狗 更新时间:2023-10-29 14:44:20 24 4
gpt4 key购买 nike

有没有一种简单的方法可以使用 Python 库 html5lib 来转换如下内容:

<p>Hello World. Greetings from <strong>Mars.</strong></p>

Hello World. Greetings from Mars.

最佳答案

lxml 作为解析器后端:

import html5lib

body = "<p>Hello World. Greetings from <strong>Mars.</strong></p>"
doc = html5lib.parse(body, treebuilder="lxml")
print doc.text_content()

说实话,这实际上是作弊,因为它等同于以下内容(仅更改了相关部分):

from lxml import html
doc = html.fromstring(body)
print doc.text_content()

如果你真的想要html5lib解析引擎:

from lxml.html import html5parser
doc = html5parser.fromstring(body)
print doc.xpath("string()")

关于python - 使用 html5lib 将 HTML 片段转换为纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8685332/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com