curl - Scrapyd:一旦我使用 scrapyd 安排它，我在哪里可以看到我的爬虫的输出-6ren

curl - Scrapyd:一旦我使用 scrapyd 安排它，我在哪里可以看到我的爬虫的输出

转载作者：行者123 更新时间：2023-12-04 14:45:23

27

4

我是scrapy和scrapyd的新手。做了一些阅读并开发了我的爬虫，它可以爬取一个新闻网站并给我所有的新闻文章。如果我简单地运行爬虫

scrapy crawl project name -o something.txt

它正确地为我提供了 something.txt 中的所有抓取数据。

现在我尝试使用scrapyd 在localhost:6800 上部署我的scrapy 爬虫项目。

我安排了爬虫使用

curl http://localhost:6800/schedule.json -d project=tutorial -d spider=dmoz_spider

它在命令行上给了我这个

{"status": "ok", "jobid": "545dfcf092de11e3ad8b0013d43164b8"}

我认为这是正确的，我什至可以在 localhost:6800 的 UI View 上看到我的爬虫工作

但是我在哪里可以找到我以前在 something.txt 中收集的爬虫抓取的数据。

请帮忙....

这是我的爬虫代码

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["timesofindia.com"]
    start_urls = ["http://mobiletoi.timesofindia.com/htmldbtoi/TOIPU/20140206/TOIPU_articles__20140206.html"]

    def parse(self, response):
    sel = Selector(response)
        torrent = DmozItem()
    items=[]
    links = sel.xpath('//div[@class="gapleftm"]/ul[@class="content"]/li')
        sel.xpath("//div[@class='gapleftm']/ul[@class='content']/li/b/a/stname/text()").extract()
    sel.xpath("//div[@class='gapleftm']/ul[@class='content']/li/b/a/@href").extract()

    for ti in sel.xpath("//a[@class='pda']/text()").extract():
        yield DmozItem(title=ti)
    for url in sel.xpath("//a[@class='pda']/@href").extract():
        itemLink = urlparse.urljoin(response.url, url)  
        yield DmozItem(link=url)    
        yield Request(itemLink, callback=self.my_parse)

    def my_parse(self, response):
    sel = Selector(response)
    self.log('A response from my_parse just arrived!')
    for head in sel.xpath("//b[@class='pda']/text()").extract():
        yield DmozItem(heading=head)
    for text in sel.xpath("//a[@class='pda']/text()").extract():
        yield DmozItem(desc=text)
    for url_desc in sel.xpath("//a[@class='pda']/@href").extract():
        itemLinkDesc = urlparse.urljoin(response.url, url_desc) 
        yield DmozItem(link=url_desc)   
        yield Request(itemLinkDesc, callback=self.my_parse_desc)

    def my_parse_desc(self, response):
        sel = Selector(response)
        self.log('ENTERED ITERATION OF MY_PARSE_DESC!')
        for bo in sel.xpath("//font[@class='pda']/text()").extract():
            yield DmozItem(body=bo)

最佳答案

使用提要导出时，您可以使用 URI(通过 FEED_URI 设置)定义存储提要的位置。提要导出支持由 URI 方案定义的多种存储后端类型。

curl http://localhost:6800/schedule.json -d project=tutorial -d spider=dmoz_spider -d setting=FEED_URI=file:///path/to/output.json

关于curl - Scrapyd:一旦我使用 scrapyd 安排它，我在哪里可以看到我的爬虫的输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21694051/

27

4

0

文章推荐： ruby-on-rails - 如何为 ActiveAdmin 上的某些操作添加范围

文章推荐： sql - 触发器将记录复制到相同表的正确 SQL 是什么？

文章推荐： spring - 将 Spring 4.0 与 spring-data-jpa 结合使用

文章推荐： curl - 如何使用 Red cURL 绑定(bind)？

一个SpringMVC接口能返回JSON又能返回XML? 安排！
我们有一个接口服务为下游的系统提供数据服务，本来好好的大家都愉快地传递JSON，非常和谐。可最近有个新需求去对接一个很老的系统，这倒是不算啥，可这个老系统数据不是以JSON传递的而是以XML传递
celery - 安排 Celery 任务在其他任务完成后运行
我想完成这样的事情: results = [] for i in range(N): data = generate_data_slowly() res = tasks.process
ssis - 安排 SSIS 包执行
如何安排 SSIS 每天在给定时间从文件中自动执行包？最佳答案你有几个选择，但我会给你一些让你快速启动和运行的东西...... 打开 SQL Server Management Studio 并连
azure - 安排 Azure 服务器重新启动
我们有两个服务器 Azure 配置，运行由 Umbraco 提供支持的网站。当我们需要向Azure服务器添加新域时，我们修改配置文件，然后依次重新启动每台服务器。理论上，因为我们永远不会同时重新启动
c# - 安排 C# 控制台应用程序
我给出了一个创建电子邮件 C# 控制台应用程序的任务，该应用程序的目标是批量运行。我对 C# 领域非常陌生，因此我不知道我的方向。此 C# 控制台应用程序将部署在服务器上，并期望根据服务器时间在特定时
kubernetes - 安排 Controller 在Kubernetes中每隔一小时运行一次
我有一个控制台应用程序，运行时会执行一些操作，并使用docker生成它的镜像。现在，我想将其部署到Kubernetes并每小时运行一次，是否有可能在K8中完成？我已经阅读了有关Cron作业的信息，但
kubernetes - 安排 cron 工作永远不会发生？
这是我的 CronJob 规范的一部分: kind: CronJob spec: schedule: #{service.schedule} 对于特定环境，设置了 cron 作业，但我从不希望
java - 安排 TimerTask 运行一次
我的任务是创建一个应用程序，该应用程序将每 (n) 分钟向选定的收件人发送一封电子邮件。它所在的应用程序的结构方式是通过回调 .main(args) 来重置自身。每当需要的时候。我的问题是，当我调用.
airflow - 安排 Airflow 在工作日运行
安排 Airflow Dag 使其仅在工作日运行的正确方法是什么？我已经尝试在 start_date 和 schedule_interval 表达式中都包含小时偏移量，但它仍然没有在所需的时间开始。
c# - 如何避免每次测试重复 TestFixtures 安排？
我有许多测试都安排了一些 TestFixtures，我发现我正在复制该安排代码很多。每个测试的前几行几乎相同。有没有一种方法可以在所有测试中声明一个共享的 TestFixture，同时仍然在每个测试
Android:安排 AsyncTask 类在一分钟后运行
我有一个问题，我正在创建一个应用程序，我想在系统与 azan 时间匹配时在后台播放 azan 文件，无论用户正在使用应用程序的任何屏幕，azan 都应该开始播放。我在 Azan.java 中创建了一
java - 安排 alarmmanager 无法重启我的手机
在我没有重启我的手机之前一直在 toast ，但是在重启之后 broadcastreceiver2 没有收到并且没有任何反应。我关注了http://stacktips.com/tutorials/a
php - MySQL自动将一个数据库表的表数据复制到另一个数据库表；当表更新或按某个特定时间间隔更新时，安排
自动将一个数据库表的表数据复制到另一个数据库表；当表格更新或按某个特定时间间隔更新时，安排数据库MySQL；语言 PHP 我有两个数据库； A和B 数据库 A 包含一个表 USERS 我想将USER
android - 安排 AlarmManager 进行定期后台数据同步的最佳位置在哪里？
我的 Android 应用程序将定期轮询服务器以检查数据。我希望无论用户与应用程序交互如何进行此轮询，类似于(在概念上)Gmail 和 Google Reader 应用程序如何在后台同步数据。安装应用
android - 安排 AlarmManager Android
我可以将android中的警报管理器(.set()方法)安排到当前时间一个月后的时间吗它会活那么久吗？操作系统对此 alarmManager 有何影响？最佳答案用户重启手机时的提示。您可以使用以下
android - 安排 AsyncTask 每分钟运行一次
安排 AsyncTask 每分钟运行一次的最佳做法是什么(请注意，在 AsyncTask 完成后我应该能够更新 UI)。我不打算使用服务，因为这些任务应该只在应用处于 Activity 状态时运行。
mysql - 安排 PHP While 循环
我在排列从 php 中的 while 循环返回的数据时遇到问题。基本上，我正在尝试从数据库返回工作的时间段计划，问题是我似乎在所有时间段中得到相同的结果，或者在一个时间段中的所有客户端得到相同的结果
mysql - 安排 mysql 事件在周六和周四运行
我想创建一个仅在周六和周四运行的 mysql 事件。是否可以定义事件本身的日期？我有一个想法，每天运行调度程序，如果是星期四或星期六，则该过程将继续，否则它将退出调度程序而不执行任何操作。最佳答
php - 安排 MySQL 查询
如何使用 MySQL 调度程序安排查询运行(如果这是最好的方法)？我按照 link here 中的说明进行操作但我有点迷路了。我想在我们拥有的特定数据库上每 30 分钟运行一次以下查询。 u
mysql - 安排 mysql 事件在一周中的每个选定的日子运行
我想在使用事件轮换我的日志后读取我的表日志，我希望我的事件在我选择的一周中的任何一天运行。经过一番研究，我想到了这个 CREATE EVENT read_rotated_logs ON SCHEDU

首页

博学

6Ren·AI

商城

curl - Scrapyd:一旦我使用 scrapyd 安排它，我在哪里可以看到我的爬虫的输出