python : Replacing a HTML element depending on its content-6ren

python : Replacing a HTML element depending on its content

转载作者：行者123 更新时间：2023-11-30 23:53:30

24

4

我有一个 html 文档，其中一些元素包含我想要隐藏的内容(就像中国政府正在做的那样，只不过我只是想隐藏 secret 信息)。例如说我有:

<div>
    <span> bkhiu jknd o so so so  yui iou 789 </span>
    <span>
        bkhiu
        <div> 56 898tr SECRET oij890 </div>
    </span>
</div>

我想获取包含字符串 SECRET 的所有元素，并将其全部内容替换为 ### :

<div>
    <span> bkhiu jknd o so so so  yui iou 789 </span>
    <span>
        bkhiu
        <div>###</div>
    </span>
</div>

我考虑过将 minidom 和 re 与以下内容一起使用:

xmldoc = minidom.parseString(my_html_string)
# filtering nodes by their content
sensitive_nodes = filter(lambda n: re.search('SECRET', n.nodeValue), 
    xmldoc.getElementsByTagName())
# replacing content
for node in sensitive_nodes:
    node.nodeValue = '###'
# output
my_html_string = xmldoc.toxml()

但首先解析甚至没有成功:

ExpatError: mismatched tag: line 27, column 6

并且 .getElementsByTagName() 需要一个 tagName 参数...而我不关心标签名称并且需要所有节点(以便按他们的内容)。基本上，该代码根本不起作用，只是试图解释我想要实现的目标。

知道如何轻松做到这一点吗？使用 minidom 或者完全不同的东西？

最佳答案

好的...我找到了一个非常简单的方法，使用 BeautifulSoup :

import re
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(my_html)
nodes_to_censor = soup.findAll(text=re.compile('.*SECRET.*'))
for node in nodes_to_censor:
    node.replaceWith('###')

关于 python : Replacing a HTML element depending on its content，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5634522/

24

4

0

文章推荐： python - Django 代码仅在调试时有效

文章推荐： javascript - 将文件从窗口拖放到 Javascript

文章推荐： javascript - jQuery UI 对话框帮助

文章推荐： python - Python 中的邮槽

CSS 选择器差异 : element element vs element>element
下面两个CSS选择器有什么区别？来自解释here ，它们听起来一样吗？ div p{} 选择div元素内的所有p元素 div > p{} 选择父级为 div 元素的所有 p 元素。最佳答案区别在
XSLT:将变成
我需要怎么做: 目前，事实证明: 我更喜欢它看起来像: 最佳答案有了这些空行，看起来您的 select 语句是(正确地)选择您
javascript - `` 到 ` ` 有效吗？
用替换元素是否有效至 .在这种情况下，我想要，这样我就可以在...中附加验证数据。这也可以从中实现吗？或等等？最佳答案标签没有而且不需要一个。同样适用于和 .您可以将验证数据作为
javascript - 为什么 Angular 区分 `` 和 `` ？
我刚刚发现了 Angular 1.2.1 的一个奇怪问题，在 this fiddle 中进行了演示。 (在 IE、FF 和 Chrome 中测试):如果我创建一个非常简单的模板化指令，它无法像那样
java - Jsoup 错误将 node.element 转换为 element.Element
我正在尝试使用 Jsoup 迭代 java 中的两个元素，但是，我收到运行时异常错误。看来我无法将nodes.Element 的类型转换为element.Element。非常感谢您的帮助，谢谢。代
javascript - element.parentNode.removeChild(element) 之前是否需要 element.removeEventListener()？
假设我的文档中有一组元素，它们是单个对象的子元素。这些元素中的每一个都使用不同的参数注册一个新的事件监听器。如果我丢弃父对象，是否需要手动取消注册所有 eventListener？或者浏览器是否跟踪所
javascript - 用 angular.element(element).offset 替换 $(element).offset
我不应该在我的应用程序中使用 jQuery，但我有一个场景，我需要元素的偏移量，而不是使用 $(element).offset() 我已经使用了 angular.element(element).of
Element implicitly has an 'any' type because expression of type 'string' can't be used to index type '{ Categories: Element; Admin: Element; }'(元素隐式具有“”any“”类型，因为“”字符串“”类型的表达式不能用于索引类型“”{Categories：Element；Admin：Element；}“”)
我是TS的新手，我想知道为什么我在以下代码中遇到类型错误(简化)：。错误在`{iconMap[名称]}中：。“元素隐式具有‘any’类型，因为‘字符串’类型的表达式不能用于索引类型‘{Categori
Element implicitly has an 'any' type because expression of type 'string' can't be used to index type '{ Categories: Element; Admin: Element; }'(元素隐式具有“”any“”类型，因为“”字符串“”类型的表达式不能用于索引类型“”{Categories：Element；Admin：Element；}“”)
我是TS的新手，我想知道为什么我在以下代码中遇到类型错误(简化)：。错误在`{iconMap[名称]}中：。“元素隐式具有”any“类型，因为”string“类型的表达式不能用于索引类型”{ Cate
swift - : Separator. Iterator.Element == Self.Iterator.Element.Iterator.Element 是什么意思
什么意思: Separator.Iterator.Element == Self.Iterator.Element.Iterator.Element 在this (Swift 标准库)swift 实例
html - :before and :after elements on an img element
是否可以在 img 元素上使用前后伪选择器？认为它是但没有任何运气，将 css 切换到 div 并且它工作正常。 .page-overhang 类是 img 元素。 // page overhang
javascript - Uncaught Error : DOM element with id x in Element cache is not same as element in DOM
我在 UI 中的按钮 Click 事件上有以下代码，它返回一个 MS-Excel 文件。它在第一次点击事件中完美运行，但之后返回以下错误。任何建议，我怎样才能摆脱它？ ERROR: Uncaught
css - 选择 ElementA 内不在 Element 内的每个元素，其中 Element 在 ElementS 内
如何在 CSS 中编写这个想法: 选择 ElementA 内但不在 ElementB 内且 ElementB 在 ElementA 内的每个元素。这是一个例子:
css - 为什么是:after pseudo-element rendering inside child element instead of the selected element?
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
c# - XElement.Element ("Leve1/Level2") 而不是 XElement.Element ("Leve1").Element ("Level2")
如果我在 C# 中的 XElement myXML 变量中有以下 XML， myvalue 要获得“myvalue”，我需要执行以下操作: myXML.Element(
python - NoSuchElementException : Message: no such element: Unable to locate element while trying to find or access element tags
我找不到用户名和密码字段。我检查元素，并尝试通过 id、xpath 或 css 选择器查找它，但它给出错误 NoSuchElementException: Message: no such eleme
JavaScript: element.setAttribute(attribute,value) , element.attribute=value & element.[attribute]=value 不改变属性值
我的任务是在用户点击它时从输入框中删除占位符并使标签可见。如果用户未在其中再次填写任何内容，请放回占位符并使标签不可见。我可以隐藏它但不能重新分配它。我试过 element.setAttribute
c# - 如果 InnerText 为 null，则将 XML 元素写为而不是
我正在编写一个 c# 类来编写一个 XML 文件，该文件需要与我们使用的现有 XML 的结构完全匹配，这样一些遗留系统就不会混淆。当一个元素的InnerText值为null时，我需要xml元素的元素
polymer - 最佳实践 : autonomous custom elements vs extending native HTML elements (customized built-in elements)
自定义元素的一个常见做法，至少在 Polymer(最流行的 Web 组件框架)中，是定义一个新的自定义元素。恕我直言，这对来说不是一个好习惯呈现元素，因为该元素无法逐步呈现，必须等到它被加载(注册
google-analytics - 错误 : 'Element " a[data-vars-ei] "is required to be an AMP element' on GA tracking of element
我正在尝试跟踪元素的可见性及其显示的控制台错误:“元素“a[data-vars-ei]”必须是 AMP 元素”。但是在点击跟踪的情况下，类似的事情工作正常。我无法理解为什么会发生这种情况以及我应该

首页

博学

6Ren·AI

商城

python : Replacing a HTML element depending on its content