gpt4 book ai didi

python - 如何从html中提取文本并在需要的地方添加空格?

转载 作者:行者123 更新时间:2023-12-01 04:06:12 26 4
gpt4 key购买 nike

我正在使用这个答案来清理 HTML 文件。

Remove all javascript tags and style tags from html with python and the lxml module

它在删除所有 html、脚本和样式标签方面做得很好,但是如果文本中没有空格,则清理器不会添加空格。对于诸如没有空格的菜单之类的东西来说,这是一个问题,因此它会显示为一个单词,因为它们都一起运行。

关于如何防止这种情况、添加空格或其他什么有什么想法吗?谢谢

最佳答案

一个相对简洁的方法是

import lxml.html
from lxml import etree

html = "<div>Test</div><div>Test 2</div>"
document = lxml.html.document_fromstring(html)
text = " ".join(etree.XPath("//text()")(document))

(另请参阅 https://stackoverflow.com/a/23929354/4240413 )

关于python - 如何从html中提取文本并在需要的地方添加空格?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35547967/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com