gpt4 book ai didi

python - BeautifulSoup:从叶到根搜索首先获取 "deepest"元素?

转载 作者:太空宇宙 更新时间:2023-11-03 18:25:59 25 4
gpt4 key购买 nike

对于类似于 this one 的研究项目我想从 python documentation. 中提取所有“文档单元”python 文档中的文档单元可以是(作为 html-meta 标记):

  • 方法(dl 类:方法)
  • 一个(dl类:类)
  • 部分(div 类:部分)

并且这些应该是嵌套的:包含多个es,其中包含多个 方法。但事实上这是非常不规则的。

示例1:如果一个部分包含多个类和方法:我想单独获取每个方法,并且每个类没有方法(我已经得到)和没有类的部分(我已经在这种情况下)并且没有方法(我也已经有了)但有其余的(因为那里有很多额外的东西)

示例2:如果一个方法或一个类没有出现它们的部分,我也想要它们,如上所述,并且不能忘记它们。

注意:并没有让事情变得更容易,但我想将所有这些都放在一个列表中,该列表的顺序与原始文档中的顺序相同。

我用 BeautifulSoup 尝试过,但我想为此目的我需要“从叶到根”搜索以首先获取最深层的元素 - 这是(据我所知)BeautifulSoup4 不支持的。

First I thought the problem is to avoid duplicates但事实上这并不是主要问题。

感谢您的提示。

最佳答案

看来这是不可能的。

所以我为解决这个问题所做的就是一次又一次地迭代元素(我使用 .descendants 得到的),然后我用占位符替换嵌套元素以使更改可见(使用 Replace_with)。

正如我之前使用的 .descendants 一样,嵌套元素无论如何都会被存储。

关于python - BeautifulSoup:从叶到根搜索首先获取 "deepest"元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23197872/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com