gpt4 book ai didi

python - 使用 Python 搜索特定的 HTML 字符串

转载 作者:行者123 更新时间:2023-11-28 05:09:09 24 4
gpt4 key购买 nike

编写搜索数百个 html 文档并删除给定的特定 html 字符串的 python 程序最好使用哪些模块。例如,如果我有一个包含 <a href="test.html">Test</a> 的 html 文档我想从每个包含它的 html 页面中删除它。

非常感谢任何帮助,我不需要有人为我编写程序,只是在正确方向上的一个有用的点。

最佳答案

如果您要搜索的字符串在 HTML 中是字面意思,那么简单的字符串替换就可以了:

old_html = open(html_file).read()
new_html = old_html.replace(my_string, "")
if new_html != old_html:
open(html_file, "w").write(new_html)

作为字符串不在 HTML 中的示例,假设您正在寻找您所说的“测试”。你想让它匹配这些 HTML 片段吗?:

<a href='test.html'>Test</a>
<A HREF='test.html'>Test</A>
<a href="test.html" class="external">Test</a>
<a href="test.html">Tes&#116;</a>

等等:“相同”的 HTML 可以用许多不同的方式来表达。如果您知道 HTML 中使用的确切字符,那么简单的字符串替换就可以了。如果您需要在 HTML 语义级别进行匹配,那么您将需要使用更高级的工具,例如 BeautifulSoup,但是您的 HTML 输出也可能与您开始时非常不同,即使在不受删除影响的部分也是如此,因为整个文件将被解析和重构。

要在多个文件上执行代码,您会发现 os.path.walk 可用于在树中查找文件,或者 glob.glob 可用于将文件名与 shell 匹配- 像通配符模式。

关于python - 使用 Python 搜索特定的 HTML 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2575872/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com