python - 调试: Crawled (404) <GET >-6ren

python - 调试: Crawled (404)

转载作者：行者123 更新时间：2023-12-01 07:51:08

25

4

我正在尝试提取有关 kaggle 提供的各种比赛的数据。

我尝试通过 shell 以及代码从网站获取数据，但失败了。我尝试将 HTTPERROR_ALLOWED_CODES = [404] 添加到setting.py 并设置 ROBOTSTXT_OBEY = False，但错误并没有消失。

enter code here

# -*- coding: utf-8 -*-
    import scrapy
    class KaggleSpider(scrapy.Spider):

    name = 'kaggle'
    allowed_domains = ['www.kaggle.com/competitions']
    start_urls = ['https://www.kaggle.com/competitions/']

    def parse(self, response):
        #Extracting the content using css selectors
        titles = response.css('.sc-hpbwTc::text').extract()
        description = response.css('.sc-ekLiME::text').extract()
        rewards = response.css('.sc-jWgUIs::text').extract()
        print(titles)

        #Give the extracted content row wise
        for item in zip(titles,description,rewards):
            #create a dictionary to store the scraped info
            scraped_info = {
                'title' : item[0],
                'vote' : item[1],
                'created_at' : item[2],
            }

            #yield or give the scraped info to scrapy
            yield scraped_info

C:\Users\Vartika Singh\ourfirstscraper1>scrapy crawl kaggle
2019-05-20 00:16:07 [scrapy.utils.log] INFO: Scrapy 1.6.0 started (bot: ourfirstscraper1)
2019-05-20 00:16:07 [scrapy.utils.log] INFO: Versions: lxml 4.3.3.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 19.2.0, Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1b  26 Feb 2019), cryptography 2.6.1, Platform Windows-10-10.0.17763-SP0
2019-05-20 00:16:07 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'ourfirstscraper1', 'NEWSPIDER_MODULE': 'ourfirstscraper1.spiders', 'SPIDER_MODULES': ['ourfirstscraper1.spiders']}
2019-05-20 00:16:07 [scrapy.extensions.telnet] INFO: Telnet Password: 397df34cf4a967c1
2019-05-20 00:16:07 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2019-05-20 00:16:07 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-05-20 00:16:07 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-05-20 00:16:07 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2019-05-20 00:16:07 [scrapy.core.engine] INFO: Spider opened
2019-05-20 00:16:07 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-05-20 00:16:07 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2019-05-20 00:16:09 [scrapy.core.engine] DEBUG: Crawled (404) <GET https://www.kaggle.com/competitions/> (referer: None)
[]
2019-05-20 00:16:09 [scrapy.core.engine] INFO: Closing spider (finished)
2019-05-20 00:16:09 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 226,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 285,
 'downloader/response_count': 1,
 'downloader/response_status_count/404': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 5, 19, 18, 46, 9, 403376),
 'log_count/DEBUG': 1,
 'log_count/INFO': 9,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 5, 19, 18, 46, 7, 962228)}
2019-05-20 00:16:09 [scrapy.core.engine] INFO: Spider closed (finished)

最佳答案

要解决 404 错误，设置用户代理即可。您可以在“settings.py”或蜘蛛本身中执行此操作:

custom_settings = { 
    'USER_AGENT': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:66.0) Gecko/20100101 Firefox/66.0; 
}

除此之外，您将无法使用您拥有的选择器来抓取比赛。这些元素是在页面加载后由一些 JavaScript 代码动态创建的。不过，您可以在<script>中找到您想要的数据。标签。要恢复它，您可以使用正则表达式 .re_first() 。例如。

def parse(self, response):
    data = json.loads((
        response
        .css(r"script:contains('Kaggle.State.push({\"')")
        .re_first(r'Kaggle.State.push\((.+?)\);')
    ))

    for group in data['fullCompetitionGroups']:
        if group['totalCompetitions'] > 0:
            for competition in group['competitions']:
                yield {
                    'title': competition['competitionTitle'],
                    'description': competition['competitionDescription'],
                    'reward': competition['rewardDisplay'],
                }

关于python - 调试: Crawled (404) <GET >，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56211088/

25

4

0

文章推荐： java - 为什么下面的例子中实例变量为空

c++ - GET GET GET GET GET DO - 过度设计？效率与一致性
我知道使用 GET 和 SET 函数的公共(public)变量的缺点/私有(private)变量的优点，但目前我正在使用 Ogre3D 开发自己的第一个“真实”游戏(C++)..同时，我有时需要 6-
get - GET 请求响应的大小
我正在开发一个 GSM/GPRS 应用程序，它将每 10 秒报告一些值。我必须使用的 SIM 卡每月只有 15MB 可用数据。我使用的是 SIM900 GSM 芯片供您引用。我到达服务器的方式是通过
ruby - gets、gets.chomp 和 gets.chomp! 之间的区别？
这三者有什么区别:gets - 它获取带有 '\n' 的行gets.chomp - 它得到一行，但删除 '\n' 这样对吗？ gets.chomp! 怎么样？最佳答案 gets - 它得到一个末尾带
azure - 组合和匹配 Get-AzureADUser、Get-AzureADSubscribedSku 、 Get-AzureADUserManager 的输出
问题和我现在遇到的问题脚本顺便说一句，评论是挪威语的，如果它们看起来很奇怪哈哈 Connect-AzureAD #variabel $Users = Get-AzureADUser -All:$t
php - GET 中的 GET
我现在面临的问题是获取一个 URL，如下所示: www.example.com/example.php?url=www.google.com 现在的问题是，如果我的网址中有一个 get，如下所示: w
get - # 字符似乎会导致 get 请求出现问题
我有一个 queryString 传递给 servlet 的 doGet() 方法，如下所示: count=9&preId0=-99&objId0=-99&preId1=-99&objId1=-99&
python - 为什么 request.GET.get ('tag' , '' ) 在 Django GET 请求中返回 C 而不是 C++？
这是我在 Django 模板中的代码: {% for tag in tags %} {{ tag }} {% endfor %} 在view.py中: def tag_find(
node.js - `app.get("/", func1, func2);` 与 `app.get("/", func1); app.get("/", func2);` 相同吗？
我正在尝试在express.js中为我的网络应用程序创建一个路由系统，我需要知道是否需要使用app.get/post/put/delete.apply以编程方式设置多个功能对于一条路线。也是如此 a
django - request.GET.get 在做什么？
我正在通过示例查看 A.Mele Django，第 1 章 def post_list(request, category=None): object_list = Post.publishe
powershell - get-website/get-webapplication关联目录
如果我想找到与IIS站点或应用程序关联的目录，我该怎么做？我似乎无法从Get-Website和Get-WebApplication的对象的任何属性中找到任何允许我这样做的东西。最佳答案只需查看一
krl - http :get adding "&" before getting
不知道发生了什么。当我执行以下代码时......它运行良好......但它产生了错误。如果我将以下内容粘贴到我的浏览器地址栏中并点击它，我会得到一个 URL。如果我通过 KRL http:get 输入
curl -GET 和 -X GET
Curl 提供了一系列不同的带有 X 前缀的 http 方法调用，但也提供了不带 X 的相同方法。我两种都试过了，但我似乎无法弄清楚其中的区别。有人可以快速向我解释这两种操作有何不同吗？最佳答案默
python - request.GET.get 是什么意思？
request.GET.get 是什么意思？我在 Django 中看到类似的东西 page = request.GET.get('page', 1) 我认为它与类似的东西有关 « 它们是如
get - 带有正文的 Angular2 http GET？
我正在从我的 Angular2 站点查询一些 Elasticsearch 服务器。为了帮助提高安全性，我们希望锁定对 GET 请求的访问权限。 Elasticsearch 支持带主体的 GET，但我在
naming - 建议如何命名一个 "get/create & get"函数
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
hbase - HTable.get(List) 结果顺序
调用 HTable.get(List) 返回的 Result 数组的顺序是什么？ ? 我的意思是，假设与输入列表的顺序相同是否正确？最佳答案结果数组中的顺序将与输入列表的顺序相同。与批处理方法一样
get - AngularJS - 如何发送多维 $http.get() 数据
所以我有一个看起来像这样的 JSON 数组: var myData = { foo : { biz : 'baz', fig : 'tree' } }
javascript - Http Get 请求中止先前的 Get 请求
我正在学习 Ajax、javascript 和 html，并且有一个应用程序可以触发“get”请求，然后再触发另一个“get”请求。这些请求是用户按下按钮的结果。在我的 servlet 中，我使用 T
javascript - 多个 GET 请求与一个返回多个对象的 GET 请求
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 6 年前。 Improv
powershell - "Get-ADGroupMember | Get-ADUser"对不同域中的用户失败
运行以下 cmdlet 适用于组成员(Amer 域中的组)中的所有用户，无论列出的用户位于哪个域: Get-ADGroupMember -Server amer 但是，当尝试通过管道传输到 Get-

首页

博学

6Ren·AI

商城

python - 调试: Crawled (404)