gpt4 book ai didi

Scrapy - 警告 : Remote certificate is not valid for hostname

转载 作者:行者123 更新时间:2023-12-04 13:46:28 24 4
gpt4 key购买 nike

我正在使用带有 LinkExtractor 对象的 CrawlSpider 来抓取主页中的下一页和其他链接。我有两个链接提取器;一个抓取下一页,另一个抓取一些链接事件(参见下面的蜘蛛代码)。

我的第二个 linkExtractor 有效(事件链接),但第一个无效。
当我启动我的蜘蛛时,我的堆栈跟踪中有这个错误:

[scrapy] WARNING: Remote certificate is not valid for hostname "marathons.ahotu.fr"; u'ssl390453.cloudflaressl.com'!=u'marathons.ahotu.fr'

实际上我是 Python 和 Scrapy 的新手,所以我的问题是:
  • 这是什么意思 ?
  • 我该如何解决?

  • 这是我的蜘蛛代码:
    import scrapy
    import os
    import re
    from scrapy.spiders import CrawlSpider, Rule
    from scrapy.linkextractors import LinkExtractor
    from scrapy.selector import Selector

    if os.path.isfile('ListeCAP_Marathons_ahotu.csv'):
    reecritureFichier = open('ListeCAP_Marathons_ahotu.csv', 'w')
    reecritureFichier.truncate()
    reecritureFichier.close()

    class MySpider(CrawlSpider):
    name = 'ListeCAP_Marathons_ahotu'
    start_urls = ['https://marathons.ahotu.fr/calendrier']

    rules = (
    # LINKEXTRACTOR N°1 = NEXT PAGES
    Rule(LinkExtractor(allow=('https://marathons.ahotu.fr/calendrier?page=[0-9]{1,100}#list-top',),),),

    # LINKEXTRACTOR N°2 = EVENTS LINKS
    Rule(LinkExtractor(allow=('https://marathons.ahotu.fr/evenement/.+',),),follow=True,callback='parse_item'),
    )

    def parse_item(self, response):
    selector = Selector(response)
    yield{
    'nom_even':selector.xpath('/html/body/div[2]/div[2]/h1/span[@itemprop="name"]/text()').extract(),
    }

    print('--------------------> NOM DE L\'EVENEMENT :', selector.xpath('//*[@id="jog"]/div[2]/section/article/header/h1/text()').extract())

    (我将 Scrapy 1.4.0 与 Twisted-17.9.0 一起使用)

    最佳答案

    您无法修复此类错误。您能做的最好的事情是向域管理员发送消息,让他/她知道证书有问题(在这种情况下,证书适用于其他域,而不是 marathons.arotu.fr)。

    关于Scrapy - 警告 : Remote certificate is not valid for hostname,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46467116/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com