python删除html标签，包括html实体，但不包括带有 '&'前缀的普通文本-6ren

python删除html标签，包括html实体，但不包括带有 '&'前缀的普通文本

转载作者：行者123 更新时间：2023-12-01 04:31:05

26

4

我想删除 html 标签，包括 python 2.7 中的 & 等 html 实体，但我的输入文本包含以字母 & 开头的普通文本，我不知道不想删除这样的文字。我正在尝试这篇文章中得票最多的答案:Strip HTML from strings in Python 。唯一的区别是，我用 space 替换 html 标签。

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ' '.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

print strip_tags('html tags<p>will be&amp;replaced</p>with space. NOT this &abc')
# Now the output is:  "html tags will be replaced with space. NOT this  "
# The wanted output is:  "html tags will be replaced with space. NOT this &abc"

如何输出正确的文本？

最佳答案

你可以尝试 BeautifulSoup :

>>> html = '<div><p>&abc is <b>my</b> input text</p></div>'
>>> print strip_tags(html)
 is  my  input text

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> print soup.text
&abc is my input text
>>> soup = BeautifulSoup('=&abc= is my input text')
>>> soup.text
u'=&abc= is my input text'

请注意，您的 strip_tags()未正确剥离嵌套的 <b>我添加到您的测试字符串中的标签。

如果你想坚持使用标准 HTMLParser，有 another answer您链接到的问题做得更好。对于我的测试字符串，它将输出 &abc; is my input text ，即它将转义独立的 & 。我不确定您想要哪个输出。

更新

这有效:

import re
from HTMLParser import HTMLParser
from htmlentitydefs import entitydefs

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
        self.entityref = re.compile('&[a-zA-Z][-.a-zA-Z0-9]*[^a-zA-Z0-9]')

    def handle_data(self, d):
        self.fed.append(d)

    def handle_starttag(self, tag, attrs):
        self.fed.append(' ')

    def handle_endtag(self, tag):
        self.fed.append(' ')

    def handle_entityref(self, name):
        if entitydefs.get(name) is None:
            m = self.entityref.match(self.rawdata.splitlines()[self.lineno-1][self.offset:])
            entity = m.group()
            # semicolon is consumed, other chars are not.
            if entity[-1] != ';':
                entity = entity[:-1]
            self.fed.append(entity)
        else:
            self.fed.append(' ')

    def get_data(self):
        self.close()    # N.B. ensure all buffered data has been processed
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

print strip_tags('html &zzz; tags<p>&zzz &zz: will be&amp;replaced</p>with space. NOT this &abc')

输出

html &zzz; tags &zzz &zz: will be replaced with space. NOT this &abc

此代码添加了开始和结束标记的处理程序，这些标记被单个空格替换。实体引用的处理方式还包括用空格替换已知的有效引用，并保持未知的引用不变。

另一个重要问题是调用close()在调用 get_data() 之前在解析器上。我把它放在get_data()方法，尽管您可以将其添加到 strip_tags()功能。我认为 close() 并不重要被多次调用，所以可以调用get_data()然后向解析器提供更多数据。

关于python删除html标签，包括html实体，但不包括带有 '&'前缀的普通文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32408502/

26

4

0

文章推荐： java - 你能连接到一个无接口(interface)的 jar 吗？

文章推荐： JQuery 快速搜索 : Searching on load if the input isn't blank

文章推荐： cqrs - 将事件附加到 eventstore

django - 我可以在同一个 url 模式中包含两个不同的 url 吗？示例 [路径 ('api/' , 包括 ('quiz.urls' )), 路径 ('api/' , 包括 ('user.urls' )) ]
127.0.0.1:8000/api/仅包含来自第二个应用程序的 url，但我将两个 url 模块链接到相同的模式。甚至有可能做到这一点吗？第一个应用程序: from django.urls imp
ColdFusion 包括
我目前正在学习 ColdFusion。我有 PHP 背景，对此我有点困惑。我有一个选择菜单，我希望将选项保存在不同的文件中。 (例如 options.cfm)当我调用文件时，我想在选择菜单中包含选项
java正则表达式删除数字，包括，
字符串: "75,000", "is", "95%", "or", "95/100" "of", "monthly", "income" o/p: "is","%, "or", "/", "of",
JavaScript 包括
我有 4 个 javascript 文件(每个文件对应一个 HTML 文件)，所有 4 个文件中的 3 个函数都是相同的。我想找到一个顺利的解决方案，我可以以某种方式分别包含这 3 个函数...是否可
php - 包括/要求路径解析
我在 PHP 中有这种情况，其中 include在一台服务器上被遗漏，但在另一台服务器上没有(我没有设置服务器，所以我不能告诉你更多；我不是真正的 devops 人，所以这就是我在这里问的原因)。两台
xsd - 包括/导入具有命名空间的本地模式
这是一个模式文件，midi.xsd定义类型，note ，用于存储 MIDI 音符值: 这是另一个模式文件，octaves.xsd使用
备份多个文件夹(包括/不包括)
我想备份以下文件夹 /home /etc /usr/local /root /var /boot 并排除 /var/tmp /var/run /var/lock /home/*/.thumbnails
重新编码具有许多值的数值变量，包括 NA
如何重新编码具有许多值(包括缺失值)的数值变量，以获得数字 0:n-1哪里n是唯一值的数量，包括 NA ，整齐？例子: df 1 1000 0 2 1000 0 3 N
JQuery:选择一个元素的html，包括？
选择元素的 html(包括在内)的最佳方法是什么？例如: This is just a test. 而$('#testDiv').html()返回"This is just a test."
未处理ESI的 Varnish 包括
我正在尝试设置Varnish来处理本地环境中的ESI包含。我在虚拟机中运行 Varnish ，内容在主机上运行。我有两个文件“index.html”和“test.html”。它们都存储在apach
xml - 使用XPath表达式获取XML中的非空元素，包括
我有以下内容，并且想要检索“ FromEmail”不为空的数据 Simple email@gma
PHP "Global"包括
欧海，我正在编写一个小型 PHP 应用程序，使用一个单独的 config.php 文件和一个functions.php，其中包含我将在应用程序中使用的所有自定义函数。现在，我真的必须在每个函数中包含
javascript - 包括 JavaScript
我知道可以将 JavaScript 放在一个特定的 .js 文件中，然后通过执行以下操作将其包含在任何页面中...... 我注意到，对于包含的这些 .js 文件: 它们实际上不必以 .js 结尾其
java - 包括 & 在我的组合框中
我使用 gwt UIBinder 添加了一些项目到我的 ComboBox。 --select one-- Dispute Referral Form Dispute Settlement Clause
c - 包括.c文件c程序
我可以将一个 first.c 文件包含到另一个 second.c 中吗？ (我正在做一些套接字编程，以将服务器收到的消息存储在链接列表中，因此在第一个程序中，我尝试保留链接列表和第二个程序套接字编程文
java - 包括 NOT IN 条件下的省略记录
我有一个简单的 Spring MVC 数据项目设置，我试图选择 Admin 中尚不存在的用户列表。 table 。这是我的存储库方法 SELECT u FROM User u WHERE u.id N
bash - 删除两个定界符之间的字符串，包括
在 bash 脚本中，使用什么实用程序以及如何删除两个字符串之间的文本，包括字符串。原文: (ABC blah1)blah 2(def blah 5)blah 7)(DEF blah 8)blah
Java - 包括 BST
我有这个 BST 问题，我试图用 Java 解决，但我不知道为什么它不起作用。问题是: 二叉搜索树 (BST) 是一种二叉树，其中每个值节点大于或等于该节点的所有节点中的值左子树并且小于该树中所有节点
java替换字符串中的多个字符，包括 "\u00A2"
我有一个字符串，其中包含“Dollars”和“Cents”符号。我想删除它们。我试过了 string.replaceAll("[\"\\u00A2\" $]", "") 但它不起作用。正确的做法是什么
mysql - 按标签搜索，包括
我在 stories 和 tags 之间有一个多对多的关系，为保存关系而创建的表是 taxonomies。我想搜索所有具有所有给定标签的故事。到目前为止我使用的查询是这个，当然它对我不起作用，它返回

首页

博学

6Ren·AI

商城

python删除html标签，包括html实体，但不包括带有 '&'前缀的普通文本