python - 刚开始抓取，不断获得空列表-6ren

转载作者：太空宇宙更新时间：2023-11-03 18:20:55

25

4

我决定尝试使用 Python(使用 lxml 和 requests)进行网络抓取。我试图抓取学习的网页是:http://www.football-lineups.com/season/Real_Madrid/2013-2014

我想要抓取的是网页左侧的表格(包含分数和所使用的阵型的表格)。这是我正在使用的代码:

from lxml import html
import requests
page=requests.get("http://www.football-lineups.com/season/Real_Madrid/2013-2014")
tree=html.fromstring(page.text)
competition=tree.xpath('//*[@id="sptf"]/table/tbody/tr[2]/td[4]/font/text()')
print competition

我输入的xpath是我从Chrome复制过来的xpath。该代码通常应返回表中第一场比赛的比赛(即西甲)。换句话说，它应该返回第二行第四列条目(网页布局上有一个随机的第二列，我不知道为什么)。但是，当我运行代码时，我得到一个空列表。这段代码哪里可能出错？

最佳答案

如果您检查页面的行源，您将看到阵容表不存在。它是在使用 AJAX 加载页面后提供的，因此您无法仅通过获取 http://www.football-lineups.com/season/Real_Madrid/2013-2014 来获取它。因为 JS 不会被解释，因此 AJAX 不会被执行。

AJAX 请求如下:

网址:http://www.football-lineups.com/ajax/get_sectf.php
方法:POST
数据:d1=3&d2=-2013&d3=0&d4=1&d5=0&d6=1&d7=20&d8=0&d9=&d10=0&d11=0&d12=未定义

也许您可以伪造请求来获取此数据。我会让您分析那些命名良好的 dX 参数是什么:)

关于python - 刚开始抓取，不断获得空列表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24163745/

25

4

0

首页

博学

6Ren·AI

商城

python - 刚开始抓取，不断获得空列表