ubuntu - 如何在服务器上运行 Scrapyd-6ren

ubuntu - 如何在服务器上运行 Scrapyd

转载作者：行者123 更新时间：2023-12-04 18:27:52

27

4

截至最近，Scrapinghub 的免费包中不再提供定期作业，这是我用来运行我的 Scrapy 爬虫的工具。

因此，我决定使用Scrapyd反而。所以我继续建立了一个运行 Ubuntu 16.04 的虚拟服务器。 (这是我第一次设置和运行服务器，所以请耐心等待)

按照 scrapyd.readthedocs.io 上的说明进行操作我使用 pip 安装了 Scrapyd:

$ pip install scrapyd

(那是在我发现 Ubuntu 的推荐方式(使用 apt-get)实际上不再受支持之后，请参阅 Github )。

然后我使用 SSH 登录到我的服务器，并通过简单地运行来运行 Scrapyd

$ scrapyd

据我所知，一切看起来都很好:

2017-10-30 17:31:19+0000 [-] Log opened.
2017-10-30 17:31:19+0000 [-] twistd 16.0.0 (/usr/bin/python 2.7.12) starting up.
2017-10-30 17:31:19+0000 [-] reactor class: twisted.internet.epollreactor.EPollReactor.
2017-10-30 17:31:19+0000 [-] Site starting on 6800
2017-10-30 17:31:19+0000 [-] Starting factory <twisted.web.server.Site instance at 0x7f644752bfc8>
2017-10-30 17:31:19+0000 [Launcher] Scrapyd 1.2.0 started: max_proc=4, runner=u'scrapyd.runner'

当我访问我的 IP here 时，我希望看到一个 Web 界面(描述为 http://82.165.102.18:6800 ) .

相反，我只是收到错误消息“无法访问此站点 82.165.102.18 拒绝连接。”

当我尝试在本地运行 Scrapyd 时，一切正常，并且我在 http://localhost:6800/ 处获得了 Web 界面.

我尝试禁用防火墙 (UFW)，但这没有帮助。

此时此刻，我已经迷失了方向。如果您有任何想法，请告诉我!

非常感谢!

最佳答案

如果您可以在本地访问 Scrapyd 实例，但不能通过网络访问，我怀疑 Scrapyd 仅在本地主机上监听。请务必在您的 scrapyd.conf 中包含此行:

bind_address = 0.0.0.0

它指示 Scrapyd 监听所有接口(interface)。 bind_address 默认为 127.0.0.1，因此默认情况下它仅监听本地主机。

关于ubuntu - 如何在服务器上运行 Scrapyd，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47021171/

27

4

0

文章推荐： php - 将 PHP5 更新到 PHP7 Ubuntu 14

文章推荐： solr - 大规模解决定价问题

文章推荐： file - Ubuntu如何使用终端将多个文本文件合并为一个

curl - Scrapyd:一旦我使用 scrapyd 安排它，我在哪里可以看到我的爬虫的输出
我是scrapy和scrapyd的新手。做了一些阅读并开发了我的爬虫，它可以爬取一个新闻网站并给我所有的新闻文章。如果我简单地运行爬虫 scrapy crawl project name -o som
python - scrapyd 安装后找不到 Scrapyd-deploy 命令
我已经创建了几个我打算与 scrapyd 同时运行的网络蜘蛛。我首先使用以下命令在 Ubuntu 14.04 中成功安装了 scrapyd:pip install scrapyd，当我运行命令:scr
scrapyd - 如何使用scrapy抓取多个域名
我有一个项目，我必须在其中抓取大量不同的网站。所有这些网站的爬行都可以使用相同的蜘蛛，因为我不需要从其正文页面中提取项目。我想到的方法是在蜘蛛文件中参数化要爬行的域，并调用 scrapy scrapy
ubuntu - 如何在服务器上运行 Scrapyd
截至最近，Scrapinghub 的免费包中不再提供定期作业，这是我用来运行我的 Scrapy 爬虫的工具。因此，我决定使用Scrapyd反而。所以我继续建立了一个运行 Ubuntu 16.04 的
python - Scrapyd 部署时权限被拒绝
我对 Scrapyd 非常陌生，正在尝试部署。我在 Ubuntu 12.04 上运行并安装了 Scrapyd 的 ubuntu 版本。当我运行 scrapy deploy default -p pul
python - scrapyd 中的类型错误
我在cmd中启动了scrapyd，网站“localhost:8600”显示正常。然后我开始部署一个名为scrapyd_prac的项目，将项目的“scrapy.cfg”内容修改为: [deploy:l
python - 使用带参数的 Scrapyd
我正在使用 Scrapyd 将 scrapy 用作网络服务。我想使用带有如下参数的 curl 命令: curl http://myip:6800/schedule.json -d project=d
python - Scrapyd 计划细节到数据库
您好，我正在使用 Scrpayd 来安排我的蜘蛛程序。问题是我想跟踪到目前为止安排的作业的所有历史信息。但是如果scrapyd服务器重启，所有的信息都会被删除。我的问题是有没有其他方法可以将这些值存
python - 使用多种配置启动 Scrapyd
我正在尝试根据我的环境(例如开发、生产)使用多种配置来开发我的 Scrapy 应用程序。我的问题是有些设置我不确定如何设置。例如，如果我必须设置数据库，则在开发中应该是“localhost”，而在生产
python - Scrapyd:如何设置scrapyd任务优先级？
我有几个 scrapy 项目。我用 scrapyd 部署了所有这些。有些蜘蛛速度慢，有些速度快。现在，我想先运行快速蜘蛛。怎么办？最佳答案我遇到了同样的问题。但是看了scrapyd的源码，好像sc
python - 横向扩展 Scrapyd
您将使用什么工具或一组工具来水平扩展 scrapyd，动态地将新机器添加到 scrapyd 集群，并在需要时每台机器拥有 N 个实例。并非所有实例都必须共享一个公共(public)作业队列，但这会很棒
Scrapyd 在环境变量中的 depricated 设置上失败
我们在 ubuntu 18.04 上的 python 3.6 中运行 scrapy 2.1.0 和 scrapyd，我遇到了一个问题，我需要帮助了解如何以正确的方式解决问题。我是 python 的新手
python - 如何重启 scrapyd 守护进程？
我已经完全按照 documentation 中的描述在 EC2 服务器上安装了 scrapyd 守护进程。 .现在，我更改了 /etc/scrapyd/conf.d/000-default 中的一些配
python - 如何运行多个 scrapyd 服务器？
我一直在搜索有关 Scrapyd 服务的文档，但它非常薄。我想知道是否有人知道如何设置指向同一个调度队列的多个 Scrapyd 服务器？最佳答案我不知道有任何“保存计划队列”，但是通过打开几个屏幕
python - 使用 scrapyd 运行多个爬虫
我的项目中有多个蜘蛛，因此决定通过上传到 scrapyd 服务器来运行它们。我已经成功上传了我的项目，当我运行命令时我可以看到所有的蜘蛛 curl http://localhost:6800/list
python - 使用外部包部署 scrapyd spider
scrapyd 文档包括以下注释: scrapyd-deploy won’t deploy anything outside the project module... 这是否意味着我不能从我的蜘蛛中
python - Scrapyd 暂停/继续工作
看起来没有合法的方式来暂停/继续使用 Scrapyd 爬行，就像 Scrapy 本身一样(scrapy crawl spider -s JOBDIR=jobdir/spider-1)。我找到的唯一解决
python - 在 scrapyd 中安排一个蜘蛛并传递蜘蛛配置选项
我正在尝试将使用 slyd 创建的蜘蛛配置为使用 scrapy-elasticsearch ，所以我发送 -d parameter=value 来配置它: curl http://localhost:
linux - 如何用密码保护 Scrapyd UI？
我的网站可供公众使用，Scrapyd 在端口 6800 上运行，如 http://website.com:6800/ 我不想让任何人看到我的爬虫列表。我知道任何人都可以轻松猜出输入端口 6800 并可
python - Scrapyd 和单蜘蛛的并行/性能问题
上下文我正在运行 scrapyd 1.1 + scrapy 0.24.6 和一个“selenium-scrapy hybrid”蜘蛛，它根据参数在许多域上爬行。托管 scrapyd 实例的开发机器是

首页

博学

6Ren·AI

商城

ubuntu - 如何在服务器上运行 Scrapyd