gpt4 book ai didi

python - 刚开始抓取,不断获得空列表

转载 作者:太空宇宙 更新时间:2023-11-03 18:20:55 25 4
gpt4 key购买 nike

我决定尝试使用 Python(使用 lxml 和 requests)进行网络抓取。我试图抓取学习的网页是:http://www.football-lineups.com/season/Real_Madrid/2013-2014

我想要抓取的是网页左侧的表格(包含分数和所使用的阵型的表格)。这是我正在使用的代码:

from lxml import html
import requests
page=requests.get("http://www.football-lineups.com/season/Real_Madrid/2013-2014")
tree=html.fromstring(page.text)
competition=tree.xpath('//*[@id="sptf"]/table/tbody/tr[2]/td[4]/font/text()')
print competition

我输入的xpath是我从Chrome复制过来的xpath。该代码通常应返回表中第一场比赛的比赛(即西甲)。换句话说,它应该返回第二行第四列条目(网页布局上有一个随机的第二列,我不知道为什么)。但是,当我运行代码时,我得到一个空列表。这段代码哪里可能出错?

最佳答案

如果您检查页面的行源,您将看到阵容表不存在。它是在使用 AJAX 加载页面后提供的,因此您无法仅通过获取 http://www.football-lineups.com/season/Real_Madrid/2013-2014 来获取它。因为 JS 不会被解释,因此 AJAX 不会被执行。

AJAX 请求如下:

也许您可以伪造请求来获取此数据。我会让您分析那些命名良好的 dX 参数是什么:)

关于python - 刚开始抓取,不断获得空列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24163745/

25 4 0
文章推荐: c# - 当所有对象都是不同类型的 EventArgs 时如何从 List 中获取特定项目