gpt4 book ai didi

python - 从 scrapy 中获取 None

转载 作者:行者123 更新时间:2023-12-01 07:37:10 28 4
gpt4 key购买 nike

作为我对 python 研究的一部分,我尝试抓取 mail.ru 主页新闻专线

我已允许抓取,我添加了自定义用户代理。我有不同的 xpath 位置,无法获取任何内容,只有空列表。

import scrapy

class TestmailspidetSpider(scrapy.Spider):
name = 'testmailspidet'
allowed_domains = ['mail.ru']
start_urls = ['http://mail.ru/']

def parse(self, response):

yield {
'testing':response.xpath('//span[@class="i-link-deco i-inline"][position()=1]').extract_first()
}

最佳答案

robots.txt ( https://mail.ru/robots.txt ) 禁止这样做。如果您仍然想抓取它,则必须将 ROBOTSTXT_OBEY 设置为 False。您可以按如下方式包含此内容:

custom_settings = {
'ROBOTSTXT_OBEY': False,
}

此外,xpath 没有给出任何结果 - 可能是因为内容是动态加载的。您可以使用 scrapy shell 检查 scrapy 所看到的 html 页面,如下所示:scrapy shell -s ROBOTSXT_OBEY=False "http://mail.ru/"。然后,可以按如下方式构建获取标题的 xpath://*[@id="news:main:list"]//*[@class="news__list__item__link__text"]/text().

关于python - 从 scrapy 中获取 None,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56935035/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com