gpt4 book ai didi

python - BeautifulSoup 中的嵌套标签 - Python

转载 作者:太空宇宙 更新时间:2023-11-03 12:33:49 25 4
gpt4 key购买 nike

我在网站和 stackoverflow 上查看了很多示例,但找不到解决我的问题的通用解决方案。我正在处理一个非常困惑的网站,我想抓取一些数据。标记如下所示:

...
<body>
...
<table>
<tbody>
<tr>
...
</tr>
<tr>
<td>
...
</td>
<td>
<table>
<tr>
...
</tr>
<tr>
<td>
<a href="...">Some link</a>
<a href="...">Some link</a>
<a href="...">Some link</a>
</td>
</tr>
</table>
</td>
</tr>
</tbody>
</table>
</body>

我遇到的问题是没有任何元素具有我可以选择以缩小某些范围的属性。在每个“...”中可能有类似的标记,例如更多 <a><table>等等。

我知道table tr table tr td a是我需要的链接所独有的,但是 BeautifulSoup 将如何获取这些链接?我不确定如何在不执行一堆单独的代码行的情况下获取嵌套标签。

有什么帮助吗?

最佳答案

您可以使用 CSS selectors in select :

soup.select('table tr table tr td a')

In [32]: bs4.BeautifulSoup(urllib.urlopen('http://google.com/?hl=en').read()).select('#footer a')
Out[32]:
[<a href="/intl/en/ads/">Advertising Programs</a>,
<a href="/services/">Business Solutions</a>,
<a href="https://plus.google.com/116899029375914044550" rel="publisher">+Google</a>,
<a href="/intl/en/about.html">About Google</a>,
<a href="http://www.google.com/setprefdomain?prefdom=RU&amp;prev=http://www.google.ru/&amp;sig=0_3F2sRGWVktTCOFLA955Vr-AWlHo%3D">Google.ru</a>,
<a href="/intl/en/policies/">Privacy &amp; Terms</a>]

关于python - BeautifulSoup 中的嵌套标签 - Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15749354/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com