python - 部署失败，因为有多个带有 Scrapinghub 的蜘蛛-6ren

python - 部署失败，因为有多个带有 Scrapinghub 的蜘蛛

转载作者：太空宇宙更新时间：2023-11-03 13:59:45

我使用 scrapy 创建一个项目并将数据保存到我的 mongodb 中。它可以工作。

这是我的代码:

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import time

# scrapy api imports
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

# I import a lots of spider file here.
from Tainan.Madou import Madou
# from ... import ...
# from ... import ...

# Spider Array: add spider into array
CrawlersArray = [ Madou ] 

class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['tw.movies.yahoo.com', 'movies.yahoo.com.tw']
    start_urls = ['http://tw.movies.yahoo.com/movie_thisweek.html/']


process = CrawlerProcess(get_project_settings())

for spider in CrawlersArray:
    process.crawl(spider)

process.start()

这是我的麻 bean 蜘蛛，我有很多像麻 bean 一样的蜘蛛，如果我不添加 if __name__ == '__main__': 我可以运行我所有的蜘蛛

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request

from TainanItem import Tainan, MovieReleased
# 麻豆戲院
class Madou(scrapy.Spider):
    name = 'Madou'
    allowed_domains = ['tw.movies.yahoo.com', 'movies.yahoo.com.tw']
    start_urls = ['https://movies.yahoo.com.tw/theater_result.html/id=68']

    global tainan, movieReleased
    tainan = Tainan()
    movieReleased = MovieReleased()

    global detailDict
    detailDict = {}
    global locationDetail
    locationDetail = {}
    global lonAndLatArray
    global cnNameArray, enNameArray, releasedTimeArray, versionTypeArray, movieStyleArray, moviePhotoArray, movieContentArray, nextPageHrefArray
    global movieDateArray, movieTimeArray, movieStillsArray, movieActorCnArray, movieActorPhotoArray
    cnNameArray = []
    enNameArray = []
    versionTypeArray = []
    movieStyleArray = []
    releasedTimeArray = []
    moviePhotoArray = []
    movieContentArray = []
    nextPageHrefArray = []
    movieDateArray = []
    movieTimeArray = []
    movieStillsArray = []
    movieActorCnArray = []
    movieActorPhotoArray = []
    lonAndLatArray = []
    global dataLen, countLen
    dataLen = 0
    countLen = 0

    def parse(self, response):

        global tainan
        global movieReleased, detailDict, locationDetail
        global lonAndLatArray
        global cnNameArray, enNameArray, versionTypeArray, movieStyleArray, releasedTimeArray, moviePhotoArray, movieContentArray
        global movieDateArray, movieTimeArray, movieStillsArray, movieActorCnArray, movieActorPhotoArray
        global nextPageHrefArray
        global dataLen
        tainan['theater'] = 'Madou'
        tainan['theaterCn'] = '麻豆戲院'
        tainan['address'] = '台南縣麻豆鎮興中路106號3樓'
        tainan['phone'] = '06-5722159'
        lonAndLatArray = [float(120.251206), float(23.183880)]

        htmlNodes = response.xpath('//div[@class="release_info_text"]')
        for htmlNode in htmlNodes:
            cnName = htmlNode.xpath('.//div[@class="theaterlist_name"]/a/text()').extract_first()
            enName = htmlNode.xpath('.//div[@class="en"]/a/text()').extract_first()
            versionType = htmlNode.xpath('.//div[@class="tapR"]/text()').extract_first()
            releasedTime = htmlNode.xpath('.//ul[@class="theater_time"]/li/text()').extract()

            cnNameArray.append(cnName)
            enNameArray.append(enName)
            versionTypeArray.append(versionType)
            releasedTimeArray.append(releasedTime)

        i = 1000
        dataLen = len(response.xpath('//div[@class="release_foto"]'))
        photoNodes = response.xpath('//div[@class="release_foto"]')
        for photoNode in photoNodes:
            contentHref = photoNode.xpath('.//a/@href').extract_first()
            yield Request(contentHref, callback=self.parse_page, priority = i, dont_filter=True)
            i -= 1
            photoHref = photoNode.xpath('.//a/img/@src').extract_first()
            moviePhotoArray.append(photoHref)

        detailDict.update({
             'cnName': cnNameArray,
             'enName': enNameArray,
             'movieContent': movieContentArray,
             'versionType': versionTypeArray,
             'movieStyle': movieStyleArray,
             'releasedTime': releasedTimeArray,
             'moviePhoto': moviePhotoArray,
             'movieDate': movieDateArray,
             'movieTime': movieTimeArray,
             'movieStills': movieStillsArray,
             'movieActorCn': movieActorCnArray,
             'movieActorPhoto': movieActorPhotoArray})

        locationDetail.update({
            'type': "Point",
            'coordinates': lonAndLatArray
        })

        movieReleased['film'] = dict(detailDict)
        tainan['geometry'] = dict(locationDetail)
        tainan['movie'] = dict(movieReleased)

    def parse_page(self, response):

        global movieContentArray, countLen, dataLen
        global movieDateArray, movieTimeArray, movieStillsArray, movieStyleArray, movieActorCnArray, movieActorPhotoArray
        movieContent = response.xpath('//div[@class="gray_infobox_inner"]/span/text()').extract_first()
        movieDate = response.xpath('//*[@class="movie_intro_info_r"]/span/text()')[0].extract()
        movieTime = response.xpath('//*[@class="movie_intro_info_r"]/span/text()')[1].extract()
        movieStills = response.xpath('//ul[@class="trailer_list imglist"]//div[@class="foto"]/img/@src').extract()
        movieStyle = response.xpath('//div[@class="level_name_box"]//div[@class="level_name"]/a/text()').extract()
        movieActorCn = response.xpath('//ul[@class="trailer_list alist starlist"]/li/a//div[@class="fotoinner"]/img/@title').extract()
        movieActorPhoto = response.xpath('//ul[@class="trailer_list alist starlist"]/li/a//div[@class="fotoinner"]/img/@src').extract()
        movieContentArray.append(movieContent)
        movieDateArray.append(movieDate)
        movieTimeArray.append(movieTime)
        movieStillsArray.append(movieStills)
        movieStyleArray.append(movieStyle)
        movieActorCnArray.append(movieActorCn)
        movieActorPhotoArray.append(movieActorPhoto)

        countLen += 1
        if countLen == dataLen:
            yield tainan

但是当我想将我的项目部署到 Scrapinghub 时，我收到错误

Exceeded container timeout 60s

我从github上找到了解决方案 https://github.com/scrapinghub/shub/issues/273

我不确定如何使用第一个解决方案，所以我像提问者一样尝试第二个解决方案。

我像这样修复代码:

if __name__ == '__main__':
    process = CrawlerProcess(get_project_settings())

    for spider in CrawlersArray:
        process.crawl(spider)

    process.start()

它可以成功地将项目部署到Scrapinghub，但是当我运行该项目时，我发现没有任何蜘蛛运行。

为什么？我想不通。

如有任何帮助，我们将不胜感激。提前致谢。

这是我运行项目时的终端信息:

File "/Library/Python/2.7/site-packages/scrapy/spiders/__init__.py", line 90, in parse
    raise NotImplementedError
NotImplementedError
2018-03-18 10:40:25 [scrapy.core.engine] INFO: Closing spider (finished)
2018-03-18 10:40:25 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 828,
 'downloader/request_count': 3,
 'downloader/request_method_count/GET': 3,
 'downloader/response_bytes': 87445,
 'downloader/response_count': 3,
 'downloader/response_status_count/200': 1,
 'downloader/response_status_count/301': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2018, 3, 18, 2, 40, 25, 666163),
 'log_count/DEBUG': 4,
 'log_count/ERROR': 1,
 'log_count/INFO': 7,
 'memusage/max': 53428224,
 'memusage/startup': 53424128,
 'response_received_count': 1,
 'scheduler/dequeued': 3,
 'scheduler/dequeued/memory': 3,
 'scheduler/enqueued': 3,
 'scheduler/enqueued/memory': 3,
 'spider_exceptions/NotImplementedError': 1,
 'start_time': datetime.datetime(2018, 3, 18, 2, 40, 18, 487308)}
2018-03-18 10:40:25 [scrapy.core.engine] INFO: Spider closed (finished)

尝试修复:

class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['tw.movies.yahoo.com', 'movies.yahoo.com.tw']
    start_urls = ['http://tw.movies.yahoo.com/movie_thisweek.html/']

    def parse(self, response):
        print("inside parse")

if __name__ == '__main__':
    process = CrawlerProcess(get_project_settings())

    for spider in CrawlersArray:
        process.crawl(spider)

    process.start()

日志:

2018-03-18 17:31:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movies.yahoo.com.tw/movie_thisweek.html/> (referer: None)
inside parse
2018-03-18 17:31:34 [scrapy.core.engine] INFO: Closing spider (finished)
2018-03-18 17:31:34 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

最佳答案

从日志中可以清楚地看出您错过了 parse 回调

class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['tw.movies.yahoo.com', 'movies.yahoo.com.tw']
    start_urls = ['http://tw.movies.yahoo.com/movie_thisweek.html/']

    def parse(self, response):
        print("inside parse")

在解析回调函数中，您解析响应(网页)并返回带有提取数据的字典、Item 对象、Request 对象或这些对象的可迭代对象。这些请求还将包含一个回调(可能相同)，然后由 Scrapy 下载，然后由指定的回调处理它们的响应。

更新:整个代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import time

# scrapy api imports
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

# I import a lots of spider file here.
# from myfile import project

# Spider Array: add spider into array
CrawlersArray = [ ... ] 

class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['tw.movies.yahoo.com', 'movies.yahoo.com.tw']
    start_urls = ['http://tw.movies.yahoo.com/movie_thisweek.html/']

    def parse(self, response):
        print("inside parse")

if __name__ == '__main__':
    process = CrawlerProcess(get_project_settings())

    for spider in CrawlersArray:
        process.crawl(spider)

    process.start()

关于python - 部署失败，因为有多个带有 Scrapinghub 的蜘蛛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49335623/

文章推荐： python - 在 Pandas 列中拆分字典/列表并转换为新数据框

文章推荐： c# - 如何配置 smtp 设置？

文章推荐： docker - Traefik SSL 配置

文章推荐： c# - 如何使用Container获取绑定(bind)数据？

postgresql - 通过 jenkins 部署 postgres - 持续集成/部署
我在 *.sql 文件中得到了我的数据库转储(表、函数、触发器等)。此时我正在通过 jenkins 部署它们，通过传递执行 shell 命令: sudo -u postgres psql -d my_
api - Web 部署 API(部署 .zip 包)说明
我正在使用网络部署 API 来部署网络包(.zip 文件，由 MSDeploy.exe 创建)以编程方式将包发布到服务器(在发布包之前我们需要做一些其他事情这就是为什么我们不使用 MSDeploy.e
c# - Web 部署 API - 部署 .NET 4.5 应用程序
我们正在使用 Web Deploy 3 的(几乎完全未记录的)“公共(public) API”来创建我们网站的 .zip 包，然后将其同步到服务器: DeploymentBaseOptions des
Clojure 部署？
将 clojure 应用程序制作成可执行文件的最简单方法是什么，例如 http://rawr.rubyforge.org/ ruby 吗？ (exe 和 app 文件也是) 最佳答案使用 leini
Android内核编译/部署
是否可以下载 Android 源代码并针对任何设备进行编译？我想做的是尝试 GSM 代码部分并编译操作系统并将其部署到我的摩托罗拉手机上。谢谢! 最佳答案是的，但这很难，因为大多数手机不共享驱动
c++ - 部署
我正在考虑用 c/c++ 编写需要在大多数个人计算机上运行的 nbody 样式模拟。本质上是一个 O(n^2) 粒子模拟器。因为这需要相当用户友好，所以我希望有 1 个不需要用户安装任何东西的 Wi
Kubernetes 部署 - 状态副本和规范副本之间的区别
需要了解 kubernetes 部署中 kube_deployment_status_replicas 和 kube_deployment_spec_replicas 指标的区别最佳答案简而言之，
Maven 部署 + 源分类器
我正在尝试使用分类器部署 Maven Artifact 。由于我需要源代码和 JAR(我从 GWT 使用它)，我想获得 artifact-version-classifier.jar 和 artifa
PhpStorm 部署 - 每次都要求提供登录凭据
我设置部署以将我的项目代码与存储我的网站的 FTP 服务器上的项目同步。但是，每次尝试同步时，我总是必须登录。我什至检查了记住，但它不起作用! 我正在使用最新的 PhpStorm 2017.1.4
ASP.NET 部署
我在 Visual Studio 2008 中开发了一个 ASP.NET 网站。现在我想在其他机器上部署它。我怎样才能做到这一点？？就像我们为 Windows 应用程序制作安装包一样，我们可以为 AS
Qt Mac 部署
将 QT 框架添加到我的 .app 包中我正在关注 Qt 站点上关于部署的文档。我创建了一个名为 HTTPClient.app 的应用程序我在 Contents 下创建了 Framework 文
eclipse - JavaMe 部署
这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
部署 CMS 驱动的内容
我正在研究改变我目前创建营销网站的策略。目前，我完全用 PHP 从头开始构建网站，使用一个简单的包含系统。所有代码(以及内容)都存储在文件(而不是数据库)中，允许我使用 Subversion 进行
没有端口的 Kubernetes 部署
我有一个长期运行的服务(在 while 1 循环中)并通过 GCloud pub/sub 处理有效负载，之后它将结果写入数据库。该服务不需要监听任何端口。 Kind=Deployment 的声明性
kubernetes - 如何诊断停滞的Kubernetes部署/部署？
似乎部署已停滞不前。我该如何进一步诊断？ kubectl rollout status deployment/wordpress Waiting for rollout to finish: 2 ou
dart - AngularDart转换/部署
我正在Dart中使用前端的Angular和后端的Shelf构建一个客户端/服务器应用程序。当我执行pub build时，它会按预期生成Dart文件的javascript，但不会替换HTML文件中的Da
Azure 部署 - 授权后无法查看所有存储库
我在 Azure 部署中心的下拉列表中看不到我的所有 Github 组织存储库。 Azure 很久以前就已经被授权了，下拉列表正确地显示了所有的存储库，直到上周我在 DevOps 中玩游戏时，不得不再
部署: Most secure,最优雅的方式来获取登录用户创建的特定集合中的所有对象？
我认为标题几乎说明了一切...对于 Deployd 来说是全新的，所以任何关于如何最好地实现这一点的指示都值得赞赏。最佳答案要获取用户创建的集合中的对象(我假设您使用的是 javascript 库
bash - 使用Bash脚本进行Docker构建/部署
我有一个试图用于CD服务器的部署脚本，但是在编写bash脚本以完成一些所需的步骤(例如运行npm和迁移命令)时遇到了问题。我将如何从该脚本进入容器bash，运行下面的命令，然后退出以完成对更改的提取
Kubernetes 部署 - 传递参数
我想在使用 kubectl 时将参数传递给 Kubernetes 部署命令应用部署文件。示例:在我的部署 .yaml 中，我有如下参数，我想在使用 kubectl apply - f .yaml 运

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 部署失败，因为有多个带有 Scrapinghub 的蜘蛛