gpt4 book ai didi

python - 请求与重定向发生奇怪的交互

转载 作者:太空宇宙 更新时间:2023-11-03 18:25:27 25 4
gpt4 key购买 nike

尝试编写一个小抓取工具来提取 marathonguide.com 上列出的马拉松比赛的完赛结果,但无法重定向以显示正确的页面。

网站导航非常简单:

当我遵循标准表单提交导航时,此结果页面仅显示整理者数据。但是,如果我刷新此页面,或者直接键入 URL,则 URL 将反射(reflect)结果页面,但显示事件页面

这是我的代码:

import requests
from bs4 import BeautifulSoup

marathon = 'http://www.marathonguide.com/results/browse.cfm?MIDD=472131103'

s = requests.session()
p = s.get(marathon)

race_range = 'B,201,300,50062'
rp = 'http://www.marathonguide.com/results/makelinks.cfm'
data = {'RaceRange':race_range, 'RaceRange_Required':'You must make a selection before viewing results.', 'MIDD':'472131103', 'SubmitButton':'View'}

results = s.post(rp, data=data)

print results.status_code
print results.url
print results.text

>>> 200
>>> http://www.marathonguide.com/results/browse.cfm?MIDD=472131103&Gen=B&Begin=201&End=300&Max=50062
>>> HTML from http://www.marathonguide.com/results/browse.cfm?MIDD=472131103

根据我收到的 HTML,我被发送回事件页面,想知道为什么服务器不喜欢我的 POST。争论使用 selenium 来模仿用户体验,但我确信我的请求代码中缺少一些小东西。

编辑:根据反馈,我更新了问题以反射(reflect)我的实际代码。

最佳答案

您被引导回事件页面的原因是因为此特定 POST 请求需要引用。这意味着,如果直接访问它,而不是来自预期的 URL,它将不会处理您的请求。这可能会阻止简单的表单数据 POST 操作以及字符串操作。

一个简单的测试来看看这是否在页面中:尝试立即转到结果页面。会发生什么?几乎什么都没有,因为您将被引导回带有相应 MIDD 的事件页面。即使您尝试操作该字符串,也不会起作用。

解决这个问题的方法是找到引用的 URL。您可以通过检查 header 并查找 Referer 键来完成此操作。请参阅下面的屏幕截图。

enter image description here

然后我们获取该值并将其合并到我们的 POST 请求中。以下是您的代码,经过修改以适应上述操作。

import requests
from bs4 import BeautifulSoup

marathon = 'http://www.marathonguide.com/results/browse.cfm?MIDD=472131103'

s = requests.session()
p = s.get(marathon)

race_range = 'M,201,300,50062'
rp = 'http://www.marathonguide.com/results/makelinks.cfm'
data = {'RaceRange':race_range, 'RaceRange_Required':'You must make a selection before viewing results.', 'MIDD':'472131103', 'SubmitButton':'View'}
headers = {
"Referer":"http://www.marathonguide.com/results/browse.cfm?MIDD=472131103",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36"
}

results = s.post(rp, data=data, headers=headers)
soup = BeautifulSoup(results.content)

rows = soup.find_all("tr", {"bgcolor":"#CCCCCC"})
for row in rows:
print row.find("td").get_text()

请注意 headers 行以及新的 results = s.post... 行。另请注意,正确的性别值不是 B 而是 M。检查 race_range 行以了解我的意思。

最终结果如下:

JAKOB SKOTT (M37)
MATIAS MARQUEZ (M44)
JOSE ESPINOSA (M33)
MATTHEW BERGENHOLTZ (M32)
MICHAEL KNAK (M33)
NICK BEDBURY (M25)
BOB LARUE (M29)
JONATAN TROLDBORG (M19)
PEDER TROLDBORG (M50)
FRANCOIS LHUISSIER (M35)
PETER KRIEGER (M34)
ANDREW YIM (M42)
CRISTIAN VALENZUELA (M27)
MARCO CAVALLUCCI (M46)
JONATHAN DROUT (M41)
SVEN WISSING (M35)
JIM CLEMENS (M46)
YVES SCHINDFESSEL (M47)
JASON BROWN (M37)
ULRICH FLUHME (M39)
MICHAEL ALBERT (M43)
JOSE LUIS BENITEZ (M29)
NATHAN AHART (M26)
LAWRENCE WARRINER (M50)
LUIS DIAS (M46)
MARIO DIMAS (M31)
RICARDO VALE (M25)
CHRIS FISHER (M35)
JOON SONG (M43)
CIARAN CANAVAN (M39)
LEIF WELHAVEN (M40)
TOM PAPAIN (M26)
NIELS DECLERCK (M26)
PHIL TEIJEIRA (M35)
JAN MUENCH (M39)
FILIPPO DE CONTO (M36)
PETER TOLLEFSON (M32)
MORTEN JEST (M40)
DOUGLAS LETTERMAN (M34)
JENS RITTER (M41)
PAUL BURTON (M50)
JOSE AGUETE (M34)
PAUL ROOME (M40)
GLEN WEISSMAN (M44)
CLIFF GERBER (M28)
JON FIVA (M35)
TODD BLANCHARD (M44)
CHRISTOPHE TREUIL (M41)
BRUNO RAINAUD (M45)
JACOB LEBLANC (M29)
[Finished in 4.1s]

这与在浏览器中查看的页面本身的结果相匹配:

enter image description here

请告诉我们这是否有帮助。

关于python - 请求与重定向发生奇怪的交互,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23303120/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com