gpt4 book ai didi

python - 如何在保留 html 标签/结构的同时查找/替换 html 中的文本

转载 作者:太空狗 更新时间:2023-10-29 14:44:31 25 4
gpt4 key购买 nike

我使用正则表达式根据需要转换文本,但我想保留 HTML 标记。例如如果我想用“堆栈下溢”替换“堆栈溢出”,这应该是预期:如果输入是 stack <sometag>overflow</sometag> , 我必须获得 stack <sometag>underflow</sometag> (即字符串替换完成,但是标签仍然存在......

最佳答案

在处理 HTML 操作时,使用 DOM 库,而不是正则表达式:

  • lxml:解析器、文档和 HTML 序列化程序。也可以使用 BeautifulSoup 和 html5lib 进行解析。
  • BeautifulSoup:解析器、文档和 HTML 序列化程序。
  • html5lib:一个解析器。它有一个序列化程序。
  • ElementTree:文档对象和 XML 序列化程序
  • cElementTree:作为 C 扩展实现的文档对象。
  • HTMLParser:一个解析器。
  • Genshi:包括解析器、文档和 HTML 序列化程序。
  • xml.dom.minidom:内置于标准库中的文档模型,html5lib 可以对其进行解析。

盗自 http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ .

其中我会推荐 lxml、html5lib 和 BeautifulSoup。

关于python - 如何在保留 html 标签/结构的同时查找/替换 html 中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1856014/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com