gpt4 book ai didi

python - 从某些文本中删除损坏的标签和格式不正确的 html

转载 作者:太空宇宙 更新时间:2023-11-03 11:57:26 25 4
gpt4 key购买 nike

我有一个庞大的论坛帖子数据库,我正在将这些帖子插入网站。然而,很多人尝试在他们的论坛帖子中使用 html,但往往做错了。正因如此,总有流浪<strike> <b> </strike> </div> </b>当我添加 15 个论坛帖子时,帖子中的标签最终会弄乱网页格式。

现在我只是将所有可能的结束标签附加到帖子中,这样它就可以捕获任何打开的标签...除了解析文本并尝试手动删除每个打开的标签之外,还有更好的方法来完成此操作吗标签。对于 loooooong 论坛帖子,这对于网络应用来说是一项昂贵的交易。

最佳答案

看看HTML Tidy

还有一个 Python 包装库:µTidylib

或者有 HTML Purifier

关于python - 从某些文本中删除损坏的标签和格式不正确的 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3522058/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com