python - Scrapy Scraper 不会抓取除比第一页更远的内容-6ren

python - Scrapy Scraper 不会抓取除比第一页更远的内容

转载作者：行者123 更新时间：2023-12-01 08:53:50

28

4

我正在尝试创建一个在名为 https://en.wikipedia.org/wiki/North_Korea_and_weapons_of_mass_destruction 的维基百科页面上启动的蜘蛛。然后抓取我提供给它的文本和图像文件。它似乎有效，但我只得到第一个响应(不会转到以下页面。任何帮助将不胜感激。

这是我的代码:

import scrapy
from scrapy.spiders import Request
from scrapy.linkextractors import LinkExtractor 
import re

BASE_URL = 'http://en.wikipedia.org'
PROTOCOL = 'https:'


class MissleSpiderBio(scrapy.Spider): 

    name = 'weapons_bio'
    allowed_domains = ['https://en.wikipedia.org']
    start_urls = ['https://en.wikipedia.org/wiki/...'] //url above


    def parse(self, response):
        filename = response.url.split('/')[-1]
        h4s = response.xpath('//h4')

        text = response.css("#mw-content-text > div > p:nth- \
        child(2)::text").extract()
        if text:
            images = response.css("#mw-content-text > div > table> 
            tbody > tr:nth-child(2) > td > a > 
            img::attr(src)").extract()
            yield {'body': text, 'image_urls':[PROTOCOL+ 
            images[0]]}

        else:
            yield {'empty': "not found"}

        for next_page in response.css('#mw-content-text > div > ul 
        > li  > b > a::attr(href)').extract():
            print(BASE_URL + next_page)
            yield response.follow(BASE_URL + next_page, \ 
            callback=self.parse)

最佳答案

有几件事你可以尝试

而不是

中的 http

BASE_URL = 'http://en.wikipedia.org'

设置为

BASE_URL = 'https://en.wikipedia.org'

第二件事，注释掉这一行

allowed_domains = ['https://en.wikipedia.org']

我认为这就是为什么它没有点击链接

关于python - Scrapy Scraper 不会抓取除比第一页更远的内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52917123/

28

4

0

文章推荐： python - 当索引位于列表中时使用嵌套属性遍历 JSON - python

文章推荐： python - 使用Python对按行和列分隔的数据进行数据处理

文章推荐： python - 如何将 Kivy 触摸坐标转换为小部件空间

flutter - 如何在Flutter中使用flutter_bloc自动刷新上一页(第一页)
SCENARIO 有两页，第一页是HomePage，它在flutter_bloc软件包的帮助下自动获取api数据。在首页(第一页)中，还有一个按钮，可在此代码Navigator.push(contex
php - Symfony 第一页 - 自动加载器预期的类 […] 将在文件中定义
我检查过类似的问题，但由其他人发布，但我仍然看不到我的代码有什么问题。我刚刚从文档中复制了它 - https://symfony.com/doc/3.4/page_creation.html Luc
python - SCRAPY:每次我的蜘蛛爬行时，它都会抓取同一页面(第一页)
我已经编写了一段代码，使用Python中的Scrapy来抓取页面。下面我粘贴了 main.py 代码。但是，每当我运行我的蜘蛛时，它仅从第一页抓取(DEBUG:从抓取)，这也是请求中的Referer标
ios - 使用 SkyDrive api ios 获取文件的缩略图(第一页)
我创建了一个 ios 图书阅读器应用程序。在这个应用程序中，我集成了 google drive 和 skydrive 。现在我可以从 google drive 和 skydrive 登录和检索数据了。
asp.net gridview分页：第一页下一页 1 2 3 4 上一页最末页
效果图：功能简介：可使用上下键选中行，选中后点击修改，textbox获得gridview中的代码的数据。对你有帮助的话，请记得要点击“好文要顶”哦!!!不懂的，请留言。废话不多说了，贴码如下

首页

博学

6Ren·AI

商城

python - Scrapy Scraper 不会抓取除比第一页更远的内容