- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
截至最近,Scrapinghub 的免费包中不再提供定期作业,这是我用来运行我的 Scrapy 爬虫的工具。
因此,我决定使用Scrapyd反而。所以我继续建立了一个运行 Ubuntu 16.04 的虚拟服务器。 (这是我第一次设置和运行服务器,所以请耐心等待)
按照 scrapyd.readthedocs.io 上的说明进行操作我使用 pip 安装了 Scrapyd:
$ pip install scrapyd
(那是在我发现 Ubuntu 的推荐方式(使用 apt-get)实际上不再受支持之后,请参阅 Github )。
然后我使用 SSH 登录到我的服务器,并通过简单地运行来运行 Scrapyd
$ scrapyd
据我所知,一切看起来都很好:
2017-10-30 17:31:19+0000 [-] Log opened.
2017-10-30 17:31:19+0000 [-] twistd 16.0.0 (/usr/bin/python 2.7.12) starting up.
2017-10-30 17:31:19+0000 [-] reactor class: twisted.internet.epollreactor.EPollReactor.
2017-10-30 17:31:19+0000 [-] Site starting on 6800
2017-10-30 17:31:19+0000 [-] Starting factory <twisted.web.server.Site instance at 0x7f644752bfc8>
2017-10-30 17:31:19+0000 [Launcher] Scrapyd 1.2.0 started: max_proc=4, runner=u'scrapyd.runner'
当我访问我的 IP here 时,我希望看到一个 Web 界面(描述为 http://82.165.102.18:6800 ) .
相反,我只是收到错误消息“无法访问此站点 82.165.102.18 拒绝连接。”
当我尝试在本地运行 Scrapyd 时,一切正常,并且我在 http://localhost:6800/ 处获得了 Web 界面.
我尝试禁用防火墙 (UFW),但这没有帮助。
此时此刻,我已经迷失了方向。如果您有任何想法,请告诉我!
非常感谢!
最佳答案
如果您可以在本地访问 Scrapyd 实例,但不能通过网络访问,我怀疑 Scrapyd 仅在本地主机上监听。请务必在您的 scrapyd.conf
中包含此行:
bind_address = 0.0.0.0
它指示 Scrapyd 监听所有接口(interface)。 bind_address
默认为 127.0.0.1
,因此默认情况下它仅监听本地主机。
关于ubuntu - 如何在服务器上运行 Scrapyd,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47021171/
我是scrapy和scrapyd的新手。做了一些阅读并开发了我的爬虫,它可以爬取一个新闻网站并给我所有的新闻文章。如果我简单地运行爬虫 scrapy crawl project name -o som
我已经创建了几个我打算与 scrapyd 同时运行的网络蜘蛛。我首先使用以下命令在 Ubuntu 14.04 中成功安装了 scrapyd:pip install scrapyd,当我运行命令:scr
我有一个项目,我必须在其中抓取大量不同的网站。所有这些网站的爬行都可以使用相同的蜘蛛,因为我不需要从其正文页面中提取项目。我想到的方法是在蜘蛛文件中参数化要爬行的域,并调用 scrapy scrapy
截至最近,Scrapinghub 的免费包中不再提供定期作业,这是我用来运行我的 Scrapy 爬虫的工具。 因此,我决定使用Scrapyd反而。所以我继续建立了一个运行 Ubuntu 16.04 的
我对 Scrapyd 非常陌生,正在尝试部署。我在 Ubuntu 12.04 上运行并安装了 Scrapyd 的 ubuntu 版本。当我运行 scrapy deploy default -p pul
我在cmd中启动了scrapyd,网站“localhost:8600”显示正常。然后我开始部署一个名为scrapyd_prac的项目,将项目的“scrapy.cfg”内容修改为: [deploy:l
我正在使用 Scrapyd 将 scrapy 用作网络服务。 我想使用带有如下参数的 curl 命令: curl http://myip:6800/schedule.json -d project=d
您好,我正在使用 Scrpayd 来安排我的蜘蛛程序。问题是我想跟踪到目前为止安排的作业的所有历史信息。但是如果scrapyd服务器重启,所有的信息都会被删除。 我的问题是有没有其他方法可以将这些值存
我正在尝试根据我的环境(例如开发、生产)使用多种配置来开发我的 Scrapy 应用程序。我的问题是有些设置我不确定如何设置。例如,如果我必须设置数据库,则在开发中应该是“localhost”,而在生产
我有几个 scrapy 项目。我用 scrapyd 部署了所有这些。有些蜘蛛速度慢,有些速度快。现在,我想先运行快速蜘蛛。怎么办? 最佳答案 我遇到了同样的问题。但是看了scrapyd的源码,好像sc
您将使用什么工具或一组工具来水平扩展 scrapyd,动态地将新机器添加到 scrapyd 集群,并在需要时每台机器拥有 N 个实例。并非所有实例都必须共享一个公共(public)作业队列,但这会很棒
我们在 ubuntu 18.04 上的 python 3.6 中运行 scrapy 2.1.0 和 scrapyd,我遇到了一个问题,我需要帮助了解如何以正确的方式解决问题。我是 python 的新手
我已经完全按照 documentation 中的描述在 EC2 服务器上安装了 scrapyd 守护进程。 .现在,我更改了 /etc/scrapyd/conf.d/000-default 中的一些配
我一直在搜索有关 Scrapyd 服务的文档,但它非常薄。我想知道是否有人知道如何设置指向同一个调度队列的多个 Scrapyd 服务器? 最佳答案 我不知道有任何“保存计划队列”,但是通过打开几个屏幕
我的项目中有多个蜘蛛,因此决定通过上传到 scrapyd 服务器来运行它们。我已经成功上传了我的项目,当我运行命令时我可以看到所有的蜘蛛 curl http://localhost:6800/list
scrapyd 文档包括以下注释: scrapyd-deploy won’t deploy anything outside the project module... 这是否意味着我不能从我的蜘蛛中
看起来没有合法的方式来暂停/继续使用 Scrapyd 爬行,就像 Scrapy 本身一样(scrapy crawl spider -s JOBDIR=jobdir/spider-1)。我找到的唯一解决
我正在尝试将使用 slyd 创建的蜘蛛配置为使用 scrapy-elasticsearch ,所以我发送 -d parameter=value 来配置它: curl http://localhost:
我的网站可供公众使用,Scrapyd 在端口 6800 上运行,如 http://website.com:6800/ 我不想让任何人看到我的爬虫列表。我知道任何人都可以轻松猜出输入端口 6800 并可
上下文 我正在运行 scrapyd 1.1 + scrapy 0.24.6 和一个“selenium-scrapy hybrid”蜘蛛,它根据参数在许多域上爬行。托管 scrapyd 实例的开发机器是
我是一名优秀的程序员,十分优秀!