gpt4 book ai didi

python - 浏览器中可见的项目未被抓取工具收集

转载 作者:行者123 更新时间:2023-12-01 05:21:43 24 4
gpt4 key购买 nike

我正在尝试从 SumofUs 网站收集数据;特别是请愿书上的签名数量。数据显示如下:<div class="percent">256,485 </div> (这是页面上此类的唯一项目。)

所以我尝试了这个:

import requests
from bs4 import BeautifulSoup

user_agent = {'User-agent': 'Mozilla/5.0'}
url = 'http://action.sumofus.org/a/nhs-patient-corporations/'

raw = requests.get(url, headers = user_agent)
html = BeautifulSoup(raw.text)

# get the item we're seeking
number = html.find("div", class_="percent")
print number

似乎该数字未呈现(我已经尝试了几个用户代理字符串。)还有什么可能导致此问题?将来我该如何解决这个问题?

最佳答案

一般情况下,您应该使用 headless 浏览器。 Ghost.py是用 python 编写的,因此首先尝试它可能是一个不错的选择。

在这个具体案例中,一些研究表明有一种更简单的方法。通过使用 Chrome 中的网络选项卡,您可以看到该站点进行了 ajax 调用来填充该值。所以你可以直接获取它:

url = "http://action.sumofus.org/api/ak_action_count_by_action/?action=nhs-patient-corporations&additional="
number = int(requests.get(url).text)

关于python - 浏览器中可见的项目未被抓取工具收集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22177950/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com