python - 如何在 Heroku 云上部署 Scrapy 蜘蛛-6ren

python - 如何在 Heroku 云上部署 Scrapy 蜘蛛

转载作者：太空狗更新时间：2023-10-29 18:28:08

26

4

我在 scrapy 中开发了几个蜘蛛，我想在 Heroku 云上测试它们。有人知道如何在 Heroku 云上部署 Scrapy 蜘蛛吗？

最佳答案

是的，在 Heroku 上部署和运行 Scrapy 爬虫相当简单。

以一个真实的Scrapy项目为例，步骤如下:

克隆项目(注意，它必须有一个 requirements.txt 文件，Heroku 才能将其识别为 Python 项目):
git clone https://github.com/scrapinghub/testspiders.git
将 cffi 添加到 requirement.txt 文件(例如 cffi==1.1.0)。
创建 Heroku 应用程序(这将添加一个新的 heroku git remote):
heroku 创建
部署项目(当 slug 构建时，这将需要一段时间):
git push heroku main
运行你的蜘蛛:
heroku run scrapy crawl followall

一些注意事项:

Heroku 磁盘是临时的。如果你想将抓取的数据存储在一个持久的地方，你可以使用 S3 feed export (通过附加 -o s3://mybucket/items.jl)或使用插件(如 MongoHQ 或 Redis To Go)并编写管道以将您的项目存储在那里
在 Heroku 上运行 Scrapyd 服务器会很酷，但目前不可能，因为 sqlite3 模块(Scrapyd 需要)在 Heroku 上不工作
如果您想要一个更复杂的解决方案来部署您的 Scrapy 蜘蛛，请考虑设置您自己的 Scrapyd server或使用类似 Scrapy Cloud 的托管服务

关于python - 如何在 Heroku 云上部署 Scrapy 蜘蛛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12779184/

26

4

0

文章推荐： c# - IsTabStop ="False"对我的 WPF 应用程序没有影响

文章推荐： python - celery 任务分组/聚合

文章推荐： python - 使用 igraph 导入加权边列表

文章推荐： python - 如何检查数组是否为二维

Python scrapy 蜘蛛
我想使用这个过滤器从网站 http://www.quoka.de/immobilien/bueros-gewerbeflaechen 抓取数据: nur Angebote 如何使用scrapy设置这个
web-crawler - 制作网络爬虫/蜘蛛
我正在研究制作网络爬虫/蜘蛛，但是我需要有人指出正确的方向才能上手。基本上，我的Spider会搜索音频文件并将它们编入索引。我只是想知道是否有人对我应该如何做有任何想法。我听说用PHP完成它会非常
nutch - 蜘蛛 Nutch 会索引它已经在它的索引中的网页吗？
如果 Nutch 页面已经在索引中，它们会再次索引它们吗？如果是这样，我该如何更改？最佳答案是和否。默认情况下，Nutch 只会在 1 个月的某个时间段(从内存中)重新索引页面，如果页面没有更改，
python - 如何从另一个蜘蛛启动 Scrapy 蜘蛛
我在一个 Scrapy 项目中有两个蜘蛛。 Spider1 抓取页面列表或整个网站并分析内容。 Spider2 使用 Splash 获取 Google 上的 URL 并将该列表传递给 Spider1。
python - 运行时更新 scrapy 蜘蛛
我正在使用 python scrapy 包。有没有办法在蜘蛛运行时更新 scrapy 蜘蛛设置？我尝试了 telnet 控制台并通过以下方式更新设置: settings.set('AUTOTHROTT
mysql - 蜘蛛 MySQL 表
我正在尝试安装 Sphider 来搜索我的网站，当我尝试创建 MySQL 表时出现此错误: create table query_log ( query varchar(255), tim
python - 如何将两个用户定义的参数传递给 scrapy 蜘蛛
正在关注 How to pass a user defined argument in scrapy spider ，我写了下面这个简单的蜘蛛: import scrapy class Funda1S
python - 如何在一定数量的请求后停止 scrapy 蜘蛛？
我正在开发一个简单的抓取工具来获取 9 个搞笑帖子及其图片，但由于一些技术困难，我无法停止抓取工具，它继续抓取，这是我不想要的。我想增加计数器值并在 100 个帖子后停止。但是 9gag 页面的设计方
python - 如何像简单脚本一样以编程方式运行 scrapy 蜘蛛？
我创建了一个 Scrapy 蜘蛛。但我想将它作为脚本运行。我该怎么做。现在我可以在终端中通过这个命令运行: $ scrapy crawl book -o book.json 但我想像运行一个简单的 p
python - 以受控方式运行数十个 Scrapy 蜘蛛
我正在尝试构建一个系统来运行 a few dozen Scrapy spiders ，将结果保存到 S3，并在完成时通知我。 StackOverflow 上有几个类似的问题(例如 this one 和
python - 编写更快的 Python 蜘蛛
我正在用 Python 编写蜘蛛来抓取网站。问题是，我需要检查大约 250 万页，所以我真的需要一些帮助来优化它的速度。我需要做的是检查一定数量的页面，如果找到就记录该页面的链接。蜘蛛非常简单，它只
python - 对多个网站使用一个 Scrapy 蜘蛛
我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用 Scrapy。但是，我无法对域和允许的 URL regex:es 进行硬编码——这将在 GUI 中进行配置。我如何(尽可能简单地)使用 Sc
python - 在存储的数据上重播 Scrapy 蜘蛛
我已经开始使用 Scrapy抓取一些网站。如果我稍后向我的模型添加一个新字段或更改我的解析函数，我希望能够离线“重放”下载的原始数据以再次抓取它。看起来 Scrapy 有能力在某一时刻将原始数据存储在
python - 创建一个通用的 scrapy 蜘蛛
我的问题实际上是如何做与上一个问题相同的事情，但在 Scrapy 0.14 中。 Using one Scrapy spider for several websites 基本上，我有一个 GUI，它
python - 蜘蛛 IDE python 。按F5和F9运行有什么区别？
我有一个关于 python (Python 2.7) IDE Spider (2.3.5.2) 的具体问题今天我注意到我的脚本作为一个整体运行时有所不同，即当我按 F5 时。或者当我只运行一行或一个
linux - Crontab 作业无法正确运行多个 Scrapy 蜘蛛
我有一个 crontab 作业，运行一个 myautorun.sh 文件，其中包含 3 个蜘蛛: crontab -e 14 * * * * * ~bin/myautorun.sh myautorun
python /蜘蛛 : General Working Directory
到目前为止，我的代码可以打开一个文本文件，将其处理成一个 pandas 数据文件，然后导出到 excel。我正在与其他人共享此代码，我们在 Spyder 中都有相同的工作目录。所有代码都运行良好，我
用于 Openstack 登录的 Python 蜘蛛
最近想为Openstack添加自动登录功能。所以我为 openstack 编写了一个 python 蜘蛛，如下所示: import urllib import urllib2 import cooki
php - 如何使用 PHP 检测爬虫/蜘蛛？
如何使用 PHP 检测爬虫/蜘蛛？我目前正在做一个项目，我需要跟踪每个爬虫的访问。我知道你应该使用 HTTP_USER_AGENT 但我不太确定如何为此目的格式化代码而且我知道可以很容易地更改 U
python - 如何以编程方式设置和启动 Scrapy 蜘蛛(网址和设置)
我已经使用 scrapy 编写了一个工作爬虫，现在我想通过一个Django webapp来控制它，也就是说: 设置1个或多个start_urls 设置 1 个或多个 allowed_domains

首页

博学

6Ren·AI

商城

python - 如何在 Heroku 云上部署 Scrapy 蜘蛛