gpt4 book ai didi

python - 用 Python 整理 HTML

转载 作者:行者123 更新时间:2023-11-28 00:17:24 24 4
gpt4 key购买 nike

我正在处理格式错误的 html 页面,因此需要做一些清理工作。 http://validator.w3.org/ Tidy 函数产生了我想要的精确输出。但是,我想将 HTML 文件作为更大的 Python 脚本的一部分进行清理。我试过:

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是,尽管 tidylib 工作正常,但输出并不像 w3 上的那样“漂亮”。我还找到了library for w3c markup validation service ,但我没有找到清理 HTML 的方法。我的问题是:使用 Python 脚本(可能调用外部程序/Web 解决方案)清理 HTML 的最佳方式是什么——最好的方式是由 w3 生成的输出。我应该使用 tidylib 的其他选项,库中是否有适合 w3c 标记验证服务的方法,或者我应该尝试其他方法。指针/代码片段非常适用。

最佳答案

您可以通过 tidylib.BASE_OPTIONS 设置 tidy 选项

PyTidy example

Tidy options quick ref

关于python - 用 Python 整理 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11391841/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com