gpt4 book ai didi

python - 如何使用 javascript 检索的表格内容抓取网站?

转载 作者:太空狗 更新时间:2023-10-30 02:20:26 26 4
gpt4 key购买 nike

我想从网站上抓取一张表格,表格看起来像这样;

<table class="table table-hover data-table sort display">
<thead>
<tr>
<th class="Column1">
</th>
<th class="Column2">
</th>
</tr>
</thead>
<tbody>
<tr ng-repeat="item in filteredList | orderBy:columnToOrder:reverse">
<td>{{item.Col1}}</td>
<td>{{item.Col2}}</td>
</tr>
</tbody>
</table>

这个网站似乎是使用一些javascript框架构建的,该框架通过网络服务从后端检索表格内容。

问题是如果数据不是数字格式,我们如何抓取表格数据?上面的代码包含在 {{ }} 中的内容。这会使网站无法抓取吗?任何解决方案?谢谢。

我正在使用 python 和 beautifulsoup4。

最佳答案

通常当有 JS 内容时,BeautifulSoup 不是工具。我用 Selenium 。试试这个,看看你得到的 HTML 是否可抓取:

from selenium import webdriver

driver = webdriver.Firefox()
driver.get(url)
driver.set_window_position(0, 0)
driver.set_window_size(100000, 200000)
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5) # wait to load

# now print the response
print driver.page_source

此时,您可以使用 BeautifulSoup 从 driver.page_source 中抓取数据。注意:您需要安装 selenium 和 Firefox

关于python - 如何使用 javascript 检索的表格内容抓取网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23103353/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com