gpt4 book ai didi

python - 用 BeautifulSoup 按摩或用 Regex 清洁

转载 作者:太空狗 更新时间:2023-10-30 01:10:31 27 4
gpt4 key购买 nike

有人能告诉我什么是清理不良 HTML 以便 BeautifulSoup 可以处理它的更好方法 - 应该使用 BeautifulSoup 的按摩方法还是使用正则表达式清理它?

最佳答案

我想我应该改写我的回答。

内置的 massages 适用于轻度损坏(额外的空格、无结束斜杠等)。在进一步参与之前,我当然会尝试摆脱这些。

您可以 pass in your own massages我建议您扩展默认设置:

import copy, re

myMassage = [(re.compile('<!-([^-])'), lambda match: '<!--' + match.group(1))]
myNewMassage = copy.copy(BeautifulSoup.MARKUP_MASSAGE)
myNewMassage.extend(myMassage)

BeautifulSoup(badString, markupMassage=myNewMassage)
# Foo<!--This comment is malformed.-->Bar<br />Baz

你最好这样做,因为它全部进入一个解析 jar ,获得 BeautifulSoups 优化......尽管运行时性能可能非常相似。

关于python - 用 BeautifulSoup 按摩或用 Regex 清洁,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3061245/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com