- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
尝试编写一个小抓取工具来提取 marathonguide.com 上列出的马拉松比赛的完赛结果,但无法重定向以显示正确的页面。
网站导航非常简单:
当我遵循标准表单提交导航时,此结果页面仅显示整理者数据。但是,如果我刷新此页面,或者直接键入 URL,则 URL 将反射(reflect)结果页面,但显示事件页面。
这是我的代码:
import requests
from bs4 import BeautifulSoup
marathon = 'http://www.marathonguide.com/results/browse.cfm?MIDD=472131103'
s = requests.session()
p = s.get(marathon)
race_range = 'B,201,300,50062'
rp = 'http://www.marathonguide.com/results/makelinks.cfm'
data = {'RaceRange':race_range, 'RaceRange_Required':'You must make a selection before viewing results.', 'MIDD':'472131103', 'SubmitButton':'View'}
results = s.post(rp, data=data)
print results.status_code
print results.url
print results.text
>>> 200
>>> http://www.marathonguide.com/results/browse.cfm?MIDD=472131103&Gen=B&Begin=201&End=300&Max=50062
>>> HTML from http://www.marathonguide.com/results/browse.cfm?MIDD=472131103
根据我收到的 HTML,我被发送回事件页面,想知道为什么服务器不喜欢我的 POST。争论使用 selenium 来模仿用户体验,但我确信我的请求代码中缺少一些小东西。
编辑:根据反馈,我更新了问题以反射(reflect)我的实际代码。
最佳答案
您被引导回事件页面的原因是因为此特定 POST 请求需要引用。这意味着,如果直接访问它,而不是来自预期的 URL,它将不会处理您的请求。这可能会阻止简单的表单数据 POST 操作以及字符串操作。
一个简单的测试来看看这是否在页面中:尝试立即转到结果页面。会发生什么?几乎什么都没有,因为您将被引导回带有相应 MIDD 的事件页面。即使您尝试操作该字符串,也不会起作用。
解决这个问题的方法是找到引用的 URL。您可以通过检查 header 并查找 Referer
键来完成此操作。请参阅下面的屏幕截图。
然后我们获取该值并将其合并到我们的 POST 请求中。以下是您的代码,经过修改以适应上述操作。
import requests
from bs4 import BeautifulSoup
marathon = 'http://www.marathonguide.com/results/browse.cfm?MIDD=472131103'
s = requests.session()
p = s.get(marathon)
race_range = 'M,201,300,50062'
rp = 'http://www.marathonguide.com/results/makelinks.cfm'
data = {'RaceRange':race_range, 'RaceRange_Required':'You must make a selection before viewing results.', 'MIDD':'472131103', 'SubmitButton':'View'}
headers = {
"Referer":"http://www.marathonguide.com/results/browse.cfm?MIDD=472131103",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36"
}
results = s.post(rp, data=data, headers=headers)
soup = BeautifulSoup(results.content)
rows = soup.find_all("tr", {"bgcolor":"#CCCCCC"})
for row in rows:
print row.find("td").get_text()
请注意 headers
行以及新的 results = s.post...
行。另请注意,正确的性别值不是 B
而是 M
。检查 race_range
行以了解我的意思。
最终结果如下:
JAKOB SKOTT (M37)
MATIAS MARQUEZ (M44)
JOSE ESPINOSA (M33)
MATTHEW BERGENHOLTZ (M32)
MICHAEL KNAK (M33)
NICK BEDBURY (M25)
BOB LARUE (M29)
JONATAN TROLDBORG (M19)
PEDER TROLDBORG (M50)
FRANCOIS LHUISSIER (M35)
PETER KRIEGER (M34)
ANDREW YIM (M42)
CRISTIAN VALENZUELA (M27)
MARCO CAVALLUCCI (M46)
JONATHAN DROUT (M41)
SVEN WISSING (M35)
JIM CLEMENS (M46)
YVES SCHINDFESSEL (M47)
JASON BROWN (M37)
ULRICH FLUHME (M39)
MICHAEL ALBERT (M43)
JOSE LUIS BENITEZ (M29)
NATHAN AHART (M26)
LAWRENCE WARRINER (M50)
LUIS DIAS (M46)
MARIO DIMAS (M31)
RICARDO VALE (M25)
CHRIS FISHER (M35)
JOON SONG (M43)
CIARAN CANAVAN (M39)
LEIF WELHAVEN (M40)
TOM PAPAIN (M26)
NIELS DECLERCK (M26)
PHIL TEIJEIRA (M35)
JAN MUENCH (M39)
FILIPPO DE CONTO (M36)
PETER TOLLEFSON (M32)
MORTEN JEST (M40)
DOUGLAS LETTERMAN (M34)
JENS RITTER (M41)
PAUL BURTON (M50)
JOSE AGUETE (M34)
PAUL ROOME (M40)
GLEN WEISSMAN (M44)
CLIFF GERBER (M28)
JON FIVA (M35)
TODD BLANCHARD (M44)
CHRISTOPHE TREUIL (M41)
BRUNO RAINAUD (M45)
JACOB LEBLANC (M29)
[Finished in 4.1s]
这与在浏览器中查看的页面本身的结果相匹配:
请告诉我们这是否有帮助。
关于python - 请求与重定向发生奇怪的交互,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23303120/
我有这种来自 Google map 自动完成的奇怪行为(或者我可能错过了某事)...想法?奇怪的: 您在输入中输入某物,例如“伦敦” 您按 [ENTER] 你按下 [CLEAR] 按钮 你点击进入'输
这段代码与《Learning Java》(Oracle Press Books)一书中的代码完全一样,但它不起作用。我不明白为什么它不起作用,它应该起作用。我用 OpenJDK 和 Sun JDK 7
示例 1 中究竟发生了什么?这是如何解析的? # doesnt split on , [String]::Join(",",("aaaaa,aaaaa,aaaaa,aaaaa,aaaaa,aa
我需要获得方程式系统的解决方案。为此,我使用函数sgesv_()。 一切都很好,它使我感到解决方案的正确结果。 但是我得到一个奇怪的警告。 警告:从不兼容的指针类型传递'sgesv_'的参数3 我正在
我目前在制作动画时遇到一个奇怪的问题: [UIView animateWithDuration:3 delay:0
alert('works'); $(window).load(function () { alert('does not work'); });
我的代码: public class MyTest { public class StringSorter implements Comparator { public
我正在学习 JavaScript。尝试理解代码, function foo (){ var a = b = {name: 'Hai'}; document.write(a.name +''
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
struct BLA { int size_; int size()const{ return size_; } } int x; BLA b[ 2 ]; BLA * p = &b[
我有以下代码: #test img {vertical-align: middle;} div#test { border: 1px solid green; height: 150px; li
我想大多数使用过 C/C++ 的人都对预处理器的工作原理有一定的直觉(或多或少)。直到今天我也是这么认为的,但事实证明我的直觉是错误的。故事是这样的: 今天我尝试了一些东西,但我无法解释结果。首先考虑
我想为 TnSettings 做 mock,是的,如果通过以下方法编写代码,它就可以工作,问题是我们需要为每个案例编写 mock 代码,如果我们只 mock 一次然后执行多个案例,那么第二个将报告异常
我的项目中有以下两个结构 typedef volatile struct { unsigned char rx_buf[MAX_UART_BUF]; //Input buffer over U
Regex rx = new Regex(@"[+-]"); string[] substrings = rx.Split(expression); expression = "-9a3dcb
我的两个应用程序遇到了一个奇怪的问题。这是设置: 两个 tomcat/java 应用程序,在同一个网络中运行,连接到相同的 MS-SQL-Server。一个应用程序,恰好按顺序位于 DMZ 中可从互联
我目前正在与 Android Api Lvl 8 上的 OnLongClickListener 作斗争。 拿这段代码: this.webView.setOnLongClickListener(new
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
只是遇到了奇怪的事情。我有以下代码: -(void)ImageDownloadCompleat { [self performSelectorOnMainThread:@selector(up
我是一名优秀的程序员,十分优秀!