gpt4 book ai didi

python - 从字符串中删除 html 图像标签和它们之间的所有内容

转载 作者:太空狗 更新时间:2023-10-29 14:02:12 25 4
gpt4 key购买 nike

我已经看到很多关于从字符串中删除 HTML 标签的问题,但我仍然不太清楚应该如何处理我的具体情况。

我看到许多帖子建议不要使用正则表达式来处理 HTML,但我怀疑我的情况可能需要明智地规避此规则。

我正在尝试解析 PDF 文件,并且已经成功地将示例 PDF 文件中的每一页转换为 UTF-32 文本字符串。当图像出现时,会插入一个 HTML 样式的标签,其中包含图像的名称和位置(保存在别处)。

在我的应用程序的一个单独部分,我需要去掉这些图像标签。因为我们处理图像标签,所以我怀疑可能需要使用正则表达式。

我的问题有两个:

  1. 我应该使用正则表达式来删除这些标签,还是应该继续使用 BeautifulSoup 等 HTML 解析模块?
  2. 我应该使用哪个正则表达式或 BeautifulSoup 结构?换句话说,我应该如何编码?

为清楚起见,标签的结构为 <img src="/path/to/file"/>

谢谢!

最佳答案

我认为在您的情况下使用正则表达式是可以接受的。这样的事情应该有效:

def remove_html_tags(data):
p = re.compile(r'<.*?>')
return p.sub('', data)

我在此处找到该片段 (http://love-python.blogspot.com/2008/07/strip-html-tags-using-python.html)

编辑:只会删除形式为 <img .... /> 的内容的版本:

def remove_img_tags(data):
p = re.compile(r'<img.*?/>')
return p.sub('', data)

关于python - 从字符串中删除 html 图像标签和它们之间的所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10486027/

25 4 0