gpt4 book ai didi

python - 使用 Scrapy shell 抓取 JSON 文件时终端窗口自动关闭

转载 作者:太空宇宙 更新时间:2023-11-04 03:30:26 24 4
gpt4 key购买 nike

我目前正在开发一个网络爬虫,它应该从几个不同的站点和所有这些站点中抓取数据,必须通过查找每个站点用来异步加载其数据的 JSON 文件来访问一个元素(具体而言,门票价格和其他事件数据)。到目前为止,我已经成功地能够在 shell 中进行测试并在爬行蜘蛛中运行从 JSON 文件(如 these)中抓取最低票价。对于this website ,但出于某种原因,我什至无法从 scrapy shell 访问此类 JSON 文件。

当我试图访问这个 file对于 this site ,shell 停顿并且永远不会调出命令行。 shell 仅在我按下 enter 时终止。尝试这个 file对于this site在 shell 中,整个终端窗口自动关闭。这些文件是否有什么不同之处可以防止它们被抓取,或者仅仅是系统错误。

如果这里有什么东西阻止了网络爬虫(顺便说一句,我对使用 json 还是陌生的),是否有任何替代方法可以以这种方式访问​​文件,例如先下载 JSON 然后解析它(我对使用 json 还是陌生的)?我需要从更多站点的 JSON 文件中获取价格,所以我只是想确保问题不会持续存在。任何帮助,将不胜感激。谢谢!我在 Virtual Box 中使用 Ubuntu 14.04。

最佳答案

你在这里可以做的是先启动shell:

scrapy shell

然后调用fetch(url) :

$ scrapy shell
In [1]: import json
In [2]: fetch("https://seatgeek.com/listings?client_id=MTY2MnwxMzgzMzIwMTU4&id=2549305&_wt=1&&_=1436304908081/")
In [3]: data = json.loads(response.body)

除此之外,请确保您使用的是最新的 Scrapy 1.0。

关于python - 使用 Scrapy shell 抓取 JSON 文件时终端窗口自动关闭,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31280397/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com