gpt4 book ai didi

Python 请求模块未从 Web 服务器获取最新数据

转载 作者:太空狗 更新时间:2023-10-29 22:24:14 25 4
gpt4 key购买 nike

在下面的代码片段中,您可以看到我正在尝试从 NCAA 男子篮球网站上抓取一些数据。

import requests

url = "https://www.ncaa.com/scoreboard/basketball-men/d1/"

response = requests.get(url)
html = response.text

print(html)
print(response.headers)
print("\n\n")
print(response.request.headers)

该网站列出了游戏及其分数。我想出了如何使用 Python Requests 提取我需要的所有数据,然后使用 BeautifulSoup 从 HTML 中提取数据。 The full scraper is here if you'd like to take a look.

问题:当 Requests 从 NCAA 网站获得响应时,数据比实际网站上的数据要旧得多(有时至少长达 30 或 40 分钟)。 p>

我已经在谷歌上搜索了几个小时。看完Python Requests docs ,我相信我已经发现 NCAA 网络服务器正在发送过时的数据。但我不明白为什么它向 Google Chrome(或任何网络浏览器)发送正确数据时会向我的程序发送过时数据。

我认为服务器发送过时数据的原因是,当我打印响应 header 时,其中一项是 'Last-Modified': 'Sat, 26 Jan 2019 17:49:13 GMT' 而另一个是 'Date': 'Sat, 26 Jan 2019 18:20:29 GMT',因此看起来服务器在正确的时间收到请求,但提供的数据尚未' 有一段时间被修改了。

我的问题:您知道会发生这种情况的任何原因吗?我是否需要在我的 HTTP 请求中添加一些内容,以使服务器向我发送与发送 Web 浏览器的内容一致的数据?

附言很抱歉问了这么长的问题。我试图保持简洁,但仍然解释清楚。

最佳答案

在您的requests.get() 之前,尝试添加一个 header :

import requests

url = "https://www.ncaa.com/scoreboard/basketball-men/d1/"

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}


response = requests.get(url, headers = headers)
html = response.text

我的另一个建议是使用:

url = 'https://data.ncaa.com/casablanca/scoreboard/basketball-men/d1/2019/01/26/scoreboard.json'

并使用 json 包来读取它。一切都以漂亮的 JSON 格式为您实时呈现

代码

import json
import requests

url = 'https://data.ncaa.com/casablanca/scoreboard/basketball-men/d1/2019/01/26/scoreboard.json'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

response = requests.get(url, headers = headers)

jsonStr = response.text

jsonObj = json.loads(jsonStr)

我检查过,JSON 对象确实返回实时比分/数据。您需要做的就是更改 URL 2019/01/26 中的日期,以获取以前日期的游戏完成数据。


编辑 - 附加

这可以帮助您提取数据。请注意我如何将其更改为今天的日期以获取当前数据。它为您将其放入一个漂亮的数据框中:

from pandas.io.json import json_normalize
import json
import requests

url = 'https://data.ncaa.com/casablanca/scoreboard/basketball-men/d1/2019/01/27/scoreboard.json'
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

# Thanks to InfectedDrake wisdom, the following 3 lines that I previously had can be replaced by a single line. See below
#response = requests.get(url, headers = headers)
#jsonStr = response.text
#jsonObj = json.loads(jsonStr)

jsonObj = requests.get(url, headers = headers).json()

result = json_normalize(jsonObj['games'])

关于Python 请求模块未从 Web 服务器获取最新数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54381544/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com