gpt4 book ai didi

python - 使用正则表达式删除 html 标签

转载 作者:行者123 更新时间:2023-12-01 07:34:26 27 4
gpt4 key购买 nike

enter image description here

我试图在一定程度上删除 HTML 标签,但并非所有标签都被删除。但下面提到的标签并没有消失

print('NOT DEALT WITH:')
for body in not_dealt_with_list:
#p = re.compile(r'<.*?[\\t\\n\\r\\s]*?.*?>')
print(remove_tags(body))
#print(p.sub('', body))
#body = re.sub()

def remove_tags(content):
parser = lxml.html.HTMLParser(remove_comments=True,
remove_blank_text=True)
document = lxml.html.document_fromstring(content, parser)
return document.text_content()

最佳答案

看起来您要删除的内容已嵌入 html 注释中(因为它看起来不像 html)。 Html 注释以 开头,这就是您必须搜索的内容。

尝试使用此正则表达式来搜索注释中的所有内容,然后在多行中替换它

<!--(.|\n)*?-->

让我知道效果如何!

关于python - 使用正则表达式删除 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57057799/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com