python - 如何从另一个 Python 脚本调用特定的 Scrapy 蜘蛛-6ren

python - 如何从另一个 Python 脚本调用特定的 Scrapy 蜘蛛

转载作者：太空狗更新时间：2023-10-29 22:31:04

25

4

我有一个名为 algorithm.py 的脚本，我希望能够在脚本期间调用 Scrapy 蜘蛛。文件结构为:

算法.py我的蜘蛛/

其中 MySpiders 是包含多个 scrapy 项目的文件夹。我想创建方法 perform_spider1()、perform_spider2()... 我可以在 algorithm.py 中调用它们。

我如何构建这个方法？

我已经设法使用以下代码调用一个蜘蛛，但是，这不是一种方法，它只适用于一个蜘蛛。我是初学者，需要帮助!

import sys,os.path
sys.path.append('path to spider1/spider1')
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log, signals
from scrapy.xlib.pydispatch import dispatcher
from spider1.spiders.spider1_spider import Spider1Spider

def stop_reactor():
    reactor.stop()

dispatcher.connect(stop_reactor, signal=signals.spider_closed)

spider = RaListSpider()
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
log.msg('Running reactor...')
reactor.run() # the script will block here
log.msg('Reactor stopped.')

最佳答案

只需检查您的蜘蛛并通过调用configure、crawl 和start 来设置它们，然后才调用log。 start() 和 reactor.run()。并且 scrapy 会在同一个进程中运行多个爬虫。

有关详细信息，请参阅 documentation和 this thread .

此外，考虑通过 scrapyd 运行您的蜘蛛程序.

希望对您有所帮助。

关于python - 如何从另一个 Python 脚本调用特定的 Scrapy 蜘蛛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16994768/

25

4

0

文章推荐： python - 未触发小部件的 "destroyed"信号 (PyQT)

文章推荐： python - 在一个太大的数组内部进行乘法和加法

文章推荐： Python pkgutil.walk_packages 不返回子包

文章推荐： python - 多个列表之间的独特功能

Python scrapy 蜘蛛
我想使用这个过滤器从网站 http://www.quoka.de/immobilien/bueros-gewerbeflaechen 抓取数据: nur Angebote 如何使用scrapy设置这个
web-crawler - 制作网络爬虫/蜘蛛
我正在研究制作网络爬虫/蜘蛛，但是我需要有人指出正确的方向才能上手。基本上，我的Spider会搜索音频文件并将它们编入索引。我只是想知道是否有人对我应该如何做有任何想法。我听说用PHP完成它会非常
nutch - 蜘蛛 Nutch 会索引它已经在它的索引中的网页吗？
如果 Nutch 页面已经在索引中，它们会再次索引它们吗？如果是这样，我该如何更改？最佳答案是和否。默认情况下，Nutch 只会在 1 个月的某个时间段(从内存中)重新索引页面，如果页面没有更改，
python - 如何从另一个蜘蛛启动 Scrapy 蜘蛛
我在一个 Scrapy 项目中有两个蜘蛛。 Spider1 抓取页面列表或整个网站并分析内容。 Spider2 使用 Splash 获取 Google 上的 URL 并将该列表传递给 Spider1。
python - 运行时更新 scrapy 蜘蛛
我正在使用 python scrapy 包。有没有办法在蜘蛛运行时更新 scrapy 蜘蛛设置？我尝试了 telnet 控制台并通过以下方式更新设置: settings.set('AUTOTHROTT
mysql - 蜘蛛 MySQL 表
我正在尝试安装 Sphider 来搜索我的网站，当我尝试创建 MySQL 表时出现此错误: create table query_log ( query varchar(255), tim
python - 如何将两个用户定义的参数传递给 scrapy 蜘蛛
正在关注 How to pass a user defined argument in scrapy spider ，我写了下面这个简单的蜘蛛: import scrapy class Funda1S
python - 如何在一定数量的请求后停止 scrapy 蜘蛛？
我正在开发一个简单的抓取工具来获取 9 个搞笑帖子及其图片，但由于一些技术困难，我无法停止抓取工具，它继续抓取，这是我不想要的。我想增加计数器值并在 100 个帖子后停止。但是 9gag 页面的设计方
python - 如何像简单脚本一样以编程方式运行 scrapy 蜘蛛？
我创建了一个 Scrapy 蜘蛛。但我想将它作为脚本运行。我该怎么做。现在我可以在终端中通过这个命令运行: $ scrapy crawl book -o book.json 但我想像运行一个简单的 p
python - 以受控方式运行数十个 Scrapy 蜘蛛
我正在尝试构建一个系统来运行 a few dozen Scrapy spiders ，将结果保存到 S3，并在完成时通知我。 StackOverflow 上有几个类似的问题(例如 this one 和
python - 编写更快的 Python 蜘蛛
我正在用 Python 编写蜘蛛来抓取网站。问题是，我需要检查大约 250 万页，所以我真的需要一些帮助来优化它的速度。我需要做的是检查一定数量的页面，如果找到就记录该页面的链接。蜘蛛非常简单，它只
python - 对多个网站使用一个 Scrapy 蜘蛛
我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用 Scrapy。但是，我无法对域和允许的 URL regex:es 进行硬编码——这将在 GUI 中进行配置。我如何(尽可能简单地)使用 Sc
python - 在存储的数据上重播 Scrapy 蜘蛛
我已经开始使用 Scrapy抓取一些网站。如果我稍后向我的模型添加一个新字段或更改我的解析函数，我希望能够离线“重放”下载的原始数据以再次抓取它。看起来 Scrapy 有能力在某一时刻将原始数据存储在
python - 创建一个通用的 scrapy 蜘蛛
我的问题实际上是如何做与上一个问题相同的事情，但在 Scrapy 0.14 中。 Using one Scrapy spider for several websites 基本上，我有一个 GUI，它
python - 蜘蛛 IDE python 。按F5和F9运行有什么区别？
我有一个关于 python (Python 2.7) IDE Spider (2.3.5.2) 的具体问题今天我注意到我的脚本作为一个整体运行时有所不同，即当我按 F5 时。或者当我只运行一行或一个
linux - Crontab 作业无法正确运行多个 Scrapy 蜘蛛
我有一个 crontab 作业，运行一个 myautorun.sh 文件，其中包含 3 个蜘蛛: crontab -e 14 * * * * * ~bin/myautorun.sh myautorun
python /蜘蛛 : General Working Directory
到目前为止，我的代码可以打开一个文本文件，将其处理成一个 pandas 数据文件，然后导出到 excel。我正在与其他人共享此代码，我们在 Spyder 中都有相同的工作目录。所有代码都运行良好，我
用于 Openstack 登录的 Python 蜘蛛
最近想为Openstack添加自动登录功能。所以我为 openstack 编写了一个 python 蜘蛛，如下所示: import urllib import urllib2 import cooki
php - 如何使用 PHP 检测爬虫/蜘蛛？
如何使用 PHP 检测爬虫/蜘蛛？我目前正在做一个项目，我需要跟踪每个爬虫的访问。我知道你应该使用 HTTP_USER_AGENT 但我不太确定如何为此目的格式化代码而且我知道可以很容易地更改 U
python - 如何以编程方式设置和启动 Scrapy 蜘蛛(网址和设置)
我已经使用 scrapy 编写了一个工作爬虫，现在我想通过一个Django webapp来控制它，也就是说: 设置1个或多个start_urls 设置 1 个或多个 allowed_domains

首页

博学

6Ren·AI

商城

python - 如何从另一个 Python 脚本调用特定的 Scrapy 蜘蛛