python - BeautifulSoup4 find_all() 在 extract() 或 decompose() 之后表现奇怪-6ren

python - BeautifulSoup4 find_all() 在 extract() 或 decompose() 之后表现奇怪

转载作者：行者123 更新时间：2023-11-28 16:30:19

25

4

我在使用 BeautifulSoup4 时发现了一个奇怪的行为。我有以下 XML(文件名:fake_product.xml):

<product acronym="ACRO1">
<formats>
    <format id="format1">
    </format>
    <format id="format2">
    </format>
    <format id="format3">
    </format>
    <format id="format4">
    </format>
    <format id="format5">
    </format>
    <format id="format6">
    </format>
</formats>
</product>

这个测试用例失败了:

import unittest
from bs4 import BeautifulSoup


class Test(unittest.TestCase):

    def setUp(self):
        with open('fake_product.xml') as f:
            self.soup = BeautifulSoup(f, 'xml')

    def test_product_removal(self):
        output = len(self.soup.find_all('format'))
        expected = 6
        self.assertEqual(output, expected)

        format_to_delete = self.soup.find(id='format2')
        format_to_delete.extract()
        #self.soup = BeautifulSoup(self.soup.prettify(), 'xml')
        output = len(self.soup.find_all('format'))
        expected -= 1
        self.assertEqual(output, expected)

原因是 find_all() 无法再找到所有格式。如果我这样做print self.soup.prettify() 我觉得一切都很好。
如果我取消注释 TestCase 中的注释行并在 extract() 之后创建一个新的 BeautifulSoup 对象，则 find_all() 似乎再次正常工作并且 TestCase 成功。

有人可以向我解释一下这种行为吗？

最佳答案

这是 4.4.0 中引入的错误，请参阅 BeautifulSoup 4 project bug tracker :

In some situations, it seems calling extract() does not correctly adjust the next_sibling attribute of the previous element. This leaves the extracted element in the descendant generator. When later calling find(...) or find_all(...), the search then terminates at the extracted element, causing results to be missed.

This bug也是相关的并且包含一个潜在的修复:

Lines 265, 267, 274, 277 need != changing to is not

Line 290 needs == changing to is

我可以确认它修复了您的特定测试。

如果您不习惯编辑 BeautifulSoup 源代码，那么解决方法是像您一样重建树，或者降级到 4.3.2 直到出现修复程序。

关于python - BeautifulSoup4 find_all() 在 extract() 或 decompose() 之后表现奇怪，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32605694/

25

4

0

文章推荐： python - django 自定义重置密码表单

文章推荐： javascript - 我如何知道我安装的 gjslint 版本是什么？

文章推荐： javascript - 使用 YQL 解析 JSON 有什么问题？

c - 在 getch() 之后，即使在输入 1-6 之后，程序也会忽略 if。
我的代码有问题。它总是忽略if(userDigit=1).. 谁能告诉我这里出了什么问题？ for(i=0; i=1) { //
javascript - 即使在使用 $(document).ready(function() {}) 之后，jquery click 函数也无法正常工作；甚至在使用 $(function) block 之后
我正在尝试从字符串 html_doc 中提取 id=obj1 并尝试将 onclick 函数附加到它 document.addEventListener("DOMContentLoaded", fu
CSS动画从一个类到另一个类的变化::之后
我正在尝试使用 css 动画来动画化从一个类到另一个类的变化。基本思想是在用户单击按钮时为从一个边缘滑动到另一个边缘的 slider 设置动画。到目前为止我的代码。 https://jsfiddle
css - 背景颜色过渡和不透明度过渡同步问题之前/之后
我目前面临使用前后伪元素淡入导航项的问题。当我悬停导航项时，它必须将其背景颜色从白色更改为蓝色。没什么疯狂的。但它也必须显示两个背景图像，分别通过将::before 伪元素从 0 更改为 1 和::
sql - SQLite3和Alter表..之后
有没有简单的方法可以在最近的sqlite版本中修改表，使其与预定义的架构匹配？架构： war_id INTEGER NOT NULL, clanname VARCHAR(64), clanhomep
PHP 搜索获取文本之前/之后
我该如何将我的搜索结果变成这样的: http://i.stack.imgur.com/NfPGs.png 结果显示特定术语在单元格中的位置。我目前有这个基本的搜索脚本: $terms =
javascript - 追加后隐藏输入(之后)
我正在尝试使用按钮创建输入字段。但我想要的是，当创建输入字段时，我想用相同的按钮隐藏创建的输入字段。我尝试了 slideToggle 函数，但效果不是很好。 $('#addEmail').one('
ios - iOS工具之前/之后
我想做这样的事情: Reference of image. 我所做的:两个 UIImagesView，一个带有 UIViewContentModeLeft，另一个带有 UIViewContentMod
mysql - 使用自动增量字段插入触发器之前/之后
我在使用应该修复表中列的插入触发器时遇到了问题: id - auto increment int thread_id - int [NULL] 我想要实现的是将 thread_id 设置
Python tkinter 之后
我使用 tinter.after() 每 200 毫秒刷新一次树莓派上模拟时钟的显示。一开始还可以，但逐渐地，每次刷新之间的时间达到大约 2-3 秒。是否有任何解决方案可以将刷新间隔保持在 200m
html - 如何从右到左为元素宽度设置动画::之后？
我有一个按钮，它使用::after 伪来填充背景。目前它从左到右填充，这在宽度从 0 到 100% 时有意义。但是，我希望它翻转它填充的方式。 a.project--link { margin:
html - 嵌入跨度和伪元素的问题:之后
我正在尝试添加带有伪元素:after的下划线来注释一些文本。我的问题是，我想强调下划线。在此示例中，这是短语“实际上确实可以...”和“ ...不起作用”。 .test { margin-top
css - 使元素出现在上一个文本之前/之后？
鉴于此: This is a test It is 有没有我可以应用到的 CSS？那它会出现在“This is...”之前，并且在 PREVIOUS LINE 之前吗？ float:left; d
css - 伪元素之前/之后
我正在使用链接左侧的图像。现在，我使用图像的::before 属性来显示，但它显示在链接的上方。我需要对齐它。这是一张照片: Link 我使用的代码是: .vocabulary-duration
css-之后。如何隐藏最后一个伪元素
我有一个页脚有与 6 body {background:#bbb;} .main-footer a::after { content: " | "; color: white; mar
css - 如何更改子元素的::之后
我有一个父元素和一些子元素，但我不能直接更改它们的 CSS。所以，我试图在父元素的 CSS 中更改我 child 的 CSS。示例: .parent { & .child {
CSS:带有标题的内容之前/之后
我可以 div:after { content: "hello" } 但我能否为 hello 文本添加标题，以便当我用鼠标悬停它时显示标题？谢谢最佳答案你不需要伪元素: p { ba
css - :之后与::之后
CSS 2.1 :after 和 CSS 3 ::after 伪选择器(除了 ::after 旧浏览器不支持)？是否有任何实际理由使用更新的规范？最佳答案这是伪类与伪元素的区别。除了 ::fir
我花了千把块给家里装上了“智能家居”之后
「掏出钥匙开门，然后在黑暗中摸索着墙壁开关的位置，最后将室内的灯点亮。」这是一个星期之前，我每天晚上下班回家时的固定戏码，也可能是大部分人每天回家时的经历。这种「一对一」的日常琐碎还有许多许
jquery - 使用 .before();之后();包裹元素
我正在尝试包装 , ，和具有的元素修复我无法直接编辑的表单上的某些定位。由于某种原因，当我尝试使用以下代码时: $("label").before(""); $("input[type=tex

首页

博学

6Ren·AI

商城

python - BeautifulSoup4 find_all() 在 extract() 或 decompose() 之后表现奇怪