gpt4 book ai didi

python BeautifulSoup 表抓取

转载 作者:行者123 更新时间:2023-12-01 03:48:33 25 4
gpt4 key购买 nike

我的 HTML 有几个表格,第一个表格是:

<table>
<tr>
<td>
<div id="string">
</div>
</td>
</tr>
</table>

其余的形式为:

<table class="confluenceTable" data-csvtable="1">
<tbody>
<tr>
<th class="highlight-grey confluenceTh" data-highlight-colour="grey" rowspan="2" style="text-align: center;">Negev</th>

我想从表中抓取数据。当我使用时:

from bs4 import BeautifulSoup
from urllib.request import urlopen

url = 'XXX'
soup = BeautifulSoup(urlopen(url).read(), "lxml")
for table in soup.findAll('table'):
print(table)

它只找到第一个表。当我将搜索更改为:

soup.findAll("table", { "class" : "confluenceTable" })

它没有找到任何东西。我错过了什么?

在 Windows 上使用 python 3.4 和 BeautifulSoup 4.5

最佳答案

我怀疑您正在尝试抓取 Atlassian Confluence 页面,该页面通常非常动态,并且大量使用 JavaScript 来加载页面。如果您查看使用 urllib 下载的 HTML 源代码,您将找不到具有 confluenceTable 类的 table 元素。

相反,您应该考虑使用 Confluence API ,或使用浏览器自动化工具,如 selenium .

关于python BeautifulSoup 表抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38552722/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com