python - 从 Flask 运行 Scrapy-6ren

python - 从 Flask 运行 Scrapy

转载作者：太空狗更新时间：2023-10-29 21:54:09

我有这个文件夹结构:

app.py # flask app
app/
   datafoo/
          scrapy.cfg
          crawler.py
          blogs/
                pipelines.py 
                settings.py
                middlewares.py
                items.py
                spiders/                    
                        allmusic_feed.py
                        allmusic_data/
                                      delicate_tracks.jl

scrapy.cfg:

[settings]
default = blogs.settings

allmusic_feed.py:

   class AllMusicDelicateTracks(scrapy.Spider): # one amongst many spiders
        name = "allmusic_delicate_tracks"
        allowed_domains = ["allmusic.com"]
        start_urls = ["http://web.archive.org/web/20160813101056/http://www.allmusic.com/mood/delicate-xa0000000972/songs",             
        ]
        def parse(self, response):
    
            for sel in response.xpath('//tr'):
                item = AllMusicItem()
                item['artist'] = sel.xpath('.//td[@class="performer"]/a/text()').extract_first() 
                item['track'] = sel.xpath('.//td[@class="title"]/a/text()').extract_first()
                yield item

爬虫.py:

from twisted.internet import reactor
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings 


def blog_crawler(self, mood):

        item, jl = mood  # ITEM = SPIDER
        process = CrawlerProcess(get_project_settings())
        process.crawl(item, domain='allmusic.com')
        process.start() 
        allmusic = []
        allmusic_tracks = []
        allmusic_artists = []
        try:
            # jl is file where crawled data is stored
            with open(jl, 'r+') as t:
                for line in t:
                    allmusic.append(json.loads(line))
        except Exception as e:
            print (e, 'try another mood')

        for item in allmusic:
            allmusic_artists.append(item['artist'])
            allmusic_tracks.append(item['track'])
        return zip(allmusic_tracks, allmusic_artists)

应用程序.py:

@app.route('/tracks', methods=['GET','POST'])
def tracks(name):
    from app.datafoo import crawler

    c = crawler()
    mood = ['allmusic_delicate_tracks', 'blogs/spiders/allmusic_data/delicate_tracks.jl']
    results = c.blog_crawler(mood)
    return results

如果简单地使用 python app.py 运行应用程序，我会收到以下错误:

ValueError: signal only works in main thread

当我使用 gunicorn -c gconfig.py app:app --log-level=debug --threads 2 运行应用程序时，它只是卡在那里:

127.0.0.1 - - [29/Jan/2018:03:40:36 -0200] "GET /tracks HTTP/1.1" 500 291 "http://127.0.0.1:8080/menu" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"

最后，使用 gunicorn -c gconfig.py app:app --log-level=debug --threads 2 --error-logfile server.log 运行，我得到:

server.log

[2018-01-30 13:41:39 -0200] [4580] [DEBUG] Current configuration:
  proxy_protocol: False
  worker_connections: 1000
  statsd_host: None
  max_requests_jitter: 0
  post_fork: <function post_fork at 0x1027da848>
  errorlog: server.log
  enable_stdio_inheritance: False
  worker_class: sync
  ssl_version: 2
  suppress_ragged_eofs: True
  syslog: False
  syslog_facility: user
  when_ready: <function when_ready at 0x1027da9b0>
  pre_fork: <function pre_fork at 0x1027da938>
  cert_reqs: 0
  preload_app: False
  keepalive: 5
  accesslog: -
  group: 20
  graceful_timeout: 30
  do_handshake_on_connect: False
  spew: False
  workers: 16
  proc_name: None
  sendfile: None
  pidfile: None
  umask: 0
  on_reload: <function on_reload at 0x10285c2a8>
  pre_exec: <function pre_exec at 0x1027da8c0>
  worker_tmp_dir: None
  limit_request_fields: 100
  pythonpath: None
  on_exit: <function on_exit at 0x102861500>
  config: gconfig.py
  logconfig: None
  check_config: False
  statsd_prefix: 
  secure_scheme_headers: {'X-FORWARDED-PROTOCOL': 'ssl', 'X-FORWARDED-PROTO': 'https', 'X-FORWARDED-SSL': 'on'}
  reload_engine: auto
  proxy_allow_ips: ['127.0.0.1']
  pre_request: <function pre_request at 0x10285cde8>
  post_request: <function post_request at 0x10285ced8>
  forwarded_allow_ips: ['127.0.0.1']
  worker_int: <function worker_int at 0x1027daa28>
  raw_paste_global_conf: []
  threads: 2
  max_requests: 0
  chdir: /Users/me/Documents/Code/Apps/app
  daemon: False
  user: 501
  limit_request_line: 4094
  access_log_format: %(h)s %(l)s %(u)s %(t)s "%(r)s" %(s)s %(b)s "%(f)s" "%(a)s"
  certfile: None
  on_starting: <function on_starting at 0x10285c140>
  post_worker_init: <function post_worker_init at 0x10285c848>
  child_exit: <function child_exit at 0x1028610c8>
  worker_exit: <function worker_exit at 0x102861230>
  paste: None
  default_proc_name: app:app
  syslog_addr: unix:///var/run/syslog
  syslog_prefix: None
  ciphers: TLSv1
  worker_abort: <function worker_abort at 0x1027daaa0>
  loglevel: debug
  bind: ['127.0.0.1:8080']
  raw_env: []
  initgroups: False
  capture_output: False
  reload: False
  limit_request_field_size: 8190
  nworkers_changed: <function nworkers_changed at 0x102861398>
  timeout: 120
  keyfile: None
  ca_certs: None
  tmp_upload_dir: None
  backlog: 2048
  logger_class: gunicorn.glogging.Logger
[2018-01-30 13:41:39 -0200] [4580] [INFO] Starting gunicorn 19.7.1
[2018-01-30 13:41:39 -0200] [4580] [DEBUG] Arbiter booted
[2018-01-30 13:41:39 -0200] [4580] [INFO] Listening at: http://127.0.0.1:8080 (4580)
[2018-01-30 13:41:39 -0200] [4580] [INFO] Using worker: threads
[2018-01-30 13:41:39 -0200] [4580] [INFO] Server is ready. Spawning workers
[2018-01-30 13:41:39 -0200] [4583] [INFO] Booting worker with pid: 4583
[2018-01-30 13:41:39 -0200] [4583] [INFO] Worker spawned (pid: 4583)
[2018-01-30 13:41:39 -0200] [4584] [INFO] Booting worker with pid: 4584
[2018-01-30 13:41:39 -0200] [4584] [INFO] Worker spawned (pid: 4584)
[2018-01-30 13:41:39 -0200] [4585] [INFO] Booting worker with pid: 4585
[2018-01-30 13:41:39 -0200] [4585] [INFO] Worker spawned (pid: 4585)
[2018-01-30 13:41:40 -0200] [4586] [INFO] Booting worker with pid: 4586
[2018-01-30 13:41:40 -0200] [4586] [INFO] Worker spawned (pid: 4586)
[2018-01-30 13:41:40 -0200] [4587] [INFO] Booting worker with pid: 4587
[2018-01-30 13:41:40 -0200] [4587] [INFO] Worker spawned (pid: 4587)
[2018-01-30 13:41:40 -0200] [4588] [INFO] Booting worker with pid: 4588
[2018-01-30 13:41:40 -0200] [4588] [INFO] Worker spawned (pid: 4588)
[2018-01-30 13:41:40 -0200] [4589] [INFO] Booting worker with pid: 4589
[2018-01-30 13:41:40 -0200] [4589] [INFO] Worker spawned (pid: 4589)
[2018-01-30 13:41:40 -0200] [4590] [INFO] Booting worker with pid: 4590
[2018-01-30 13:41:40 -0200] [4590] [INFO] Worker spawned (pid: 4590)
[2018-01-30 13:41:40 -0200] [4591] [INFO] Booting worker with pid: 4591
[2018-01-30 13:41:40 -0200] [4591] [INFO] Worker spawned (pid: 4591)
[2018-01-30 13:41:40 -0200] [4592] [INFO] Booting worker with pid: 4592
[2018-01-30 13:41:40 -0200] [4592] [INFO] Worker spawned (pid: 4592)
[2018-01-30 13:41:40 -0200] [4595] [INFO] Booting worker with pid: 4595
[2018-01-30 13:41:40 -0200] [4595] [INFO] Worker spawned (pid: 4595)
[2018-01-30 13:41:40 -0200] [4596] [INFO] Booting worker with pid: 4596
[2018-01-30 13:41:40 -0200] [4596] [INFO] Worker spawned (pid: 4596)
[2018-01-30 13:41:40 -0200] [4597] [INFO] Booting worker with pid: 4597
[2018-01-30 13:41:40 -0200] [4597] [INFO] Worker spawned (pid: 4597)
[2018-01-30 13:41:40 -0200] [4598] [INFO] Booting worker with pid: 4598
[2018-01-30 13:41:40 -0200] [4598] [INFO] Worker spawned (pid: 4598)
[2018-01-30 13:41:40 -0200] [4599] [INFO] Booting worker with pid: 4599
[2018-01-30 13:41:40 -0200] [4599] [INFO] Worker spawned (pid: 4599)
[2018-01-30 13:41:40 -0200] [4600] [INFO] Booting worker with pid: 4600
[2018-01-30 13:41:40 -0200] [4600] [INFO] Worker spawned (pid: 4600)
[2018-01-30 13:41:40 -0200] [4580] [DEBUG] 16 workers
[2018-01-30 13:41:47 -0200] [4583] [DEBUG] GET /menu
[2018-01-30 13:41:54 -0200] [4584] [DEBUG] GET /tracks

注意:

在此SO answer我了解到，为了集成 Flask 和 Scrapy，您可以使用:

1. Python subprocess

2. Twisted-Klein + Scrapy

3. ScrapyRT

但我没有运气使我的特定代码适应这些解决方案。

我认为子流程会更简单和足够，因为用户体验很少需要抓取线程，但我不确定。

谁能给我指出正确的方向吗？

最佳答案

这是一个如何使用 ScrapyRT 实现的最小示例。

这是项目结构:

project/
├── scraping
│   ├── example
│   │   ├── __init__.py
│   │   ├── items.py
│   │   ├── middlewares.py
│   │   ├── pipelines.py
│   │   ├── settings.py
│   │   └── spiders
│   │       ├── __init__.py
│   │       └── quotes.py
│   └── scrapy.cfg
└── webapp
    └── example.py

scraping 目录包含 Scrapy 项目。这个项目包含一个蜘蛛 quotes.py 来从 quotes.toscrape.com 中抓取一些引语。 :

# -*- coding: utf-8 -*-
from __future__ import unicode_literals

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        for quote in response.xpath('//div[@class="quote"]'):
            yield {
                'author': quote.xpath('.//small[@class="author"]/text()').extract_first(),
                'text': quote.xpath('normalize-space(./span[@class="text"])').extract_first()
            }

为了启动 ScrapyRT 并监听抓取请求，进入 Scrapy 项目的目录 scraping 并发出 scrapyrt 命令:

$ cd ./project/scraping
$ scrapyrt

ScrapyRT 现在将监听 localhost:9080 .

webapp 目录包含简单的 Flask 应用程序，它按需抓取引号(使用上面的蜘蛛)并简单地将它们显示给用户:

from __future__ import unicode_literals

import json
import requests

from flask import Flask

app = Flask(__name__)

@app.route('/')
def show_quotes():
    params = {
        'spider_name': 'quotes',
        'start_requests': True
    }
    response = requests.get('http://localhost:9080/crawl.json', params)
    data = json.loads(response.text)
    result = '\n'.join('<p><b>{}</b> - {}</p>'.format(item['author'], item['text'])
                       for item in data['items'])
    return result

启动应用程序:

$ cd ./project/webapp
$ FLASK_APP=example.py flask run

现在，当您将浏览器指向 localhost:5000 时，您将获得从 quotes.toscrape.com 中新鲜抓取的报价列表.

关于python - 从 Flask 运行 Scrapy，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48480009/

文章推荐： Python - 为什么类列在内置函数列表中？

文章推荐： c# - 断言两种不同类型的枚举是等价的

scrapy - 如何在 scrapy Shell 中使用 scrapy 中间件？
在一个 scrapy 项目中，人们经常使用中间件。在交互式 session 期间是否也有一种通用方法可以在 scrapy shell 中启用中间件？最佳答案尽管如此，在 setting.py 中设
scrapy - scrapy-splash如何处理无限滚动？
我想对网页中向下滚动生成的内容进行反向工程。问题出在url https://www.crowdfunder.com/user/following_page/80159?user_id=80159&li
scrapy - 相对URL到绝对URL Scrapy
我需要帮助将相对URL转换为Scrapy Spider中的绝对URL。我需要将起始页面上的链接转换为绝对URL，以获取起始页面上已草稿的项目的图像。我尝试使用不同的方法来实现此目标失败，但是我陷入了
scrapy - Python Scrapy 错误。不再支持使用多个蜘蛛运行 'scrapy crawl'
我在 Scrapy Python 中制作了一个脚本，它在几个月内一直运行良好(没有更改)。最近，当我在 Windows Powershell 中执行脚本时，它引发了下一个错误: scrapy craw
scrapy - 飞溅内存限制(scrapy)
我已经从 docker 启动了 splash。我为 splash 和 scrapy 创建了大的 lua 脚本，然后它运行我看到了问题: Lua error: error in __gc metamet
scrapy - 让 Scrapy 从上一个断点继续爬行
我正在使用scrapy 来抓取网站，但发生了不好的事情(断电等)。我想知道我怎样才能从它坏了的地方继续爬行。我不想从种子开始。最佳答案这可以通过将预定的请求持久化到磁盘来完成。 scrapy c
scrapy - Scrapy 暂停/恢复如何工作？
有人可以向我解释一下 Scrapy 中的暂停/恢复功能是如何实现的吗？作品？ scrapy的版本我正在使用的是 0.24.5 documentation没有提供太多细节。我有以下简单的蜘蛛: cla
scrapy - Apscheduler+scrapy 信号仅适用于主线程
我想将 apscheduler 与 scrapy.but 我的代码是错误的。我应该如何修改它？ settings = get_project_settings() configure_logging
scrapy - 为什么 Scrapy 很慢？
我正在抓取一个网站并解析一些内容和图像，但即使对于 100 页左右的简单网站，完成这项工作也需要数小时。我正在使用以下设置。任何帮助将不胜感激。我已经看过这个问题- Scrapy 's Scrapyd
scrapy - 为什么 Scrapy 很慢？
我正在抓取一个网站并解析一些内容和图像，但即使对于 100 页左右的简单网站，完成这项工作也需要数小时。我正在使用以下设置。任何帮助将不胜感激。我已经看过这个问题- Scrapy 's Scrapyd
scrapy - 使用 Scrapy 增量爬取网站
我是爬行新手，想知道是否可以使用 Scrapy 逐步爬行网站，例如 CNBC.com？例如，如果今天我从一个站点抓取所有页面，那么从明天开始我只想收集新发布到该站点的页面，以避免抓取所有旧页面。感谢
scrapy - 如何使用 Scrapy 下载图片？
我是scrapy的新手。我正在尝试从 here 下载图像.我在关注 Official-Doc和 this article . 我的 settings.py 看起来像: BOT_NAME = 'shop
python - Scrapy:已抓取 0 页(可在 scrapy shell 中使用，但不适用于 scrapy crawl spider 命令)
我在使用 scrapy 时遇到了一些问题。它没有返回任何结果。我试图将以下蜘蛛复制并粘贴到 scrapy shell 中，它确实有效。真的不确定问题出在哪里，但是当我用“scrapy crawl rx
scrapy - 使用 Scrapy 抓取多个 URL
如何使用 Scrapy 抓取多个 URL？我是否被迫制作多个爬虫？ class TravelSpider(BaseSpider): name = "speedy" allowed_d
scrapy - 如何确保 scrapy-splash 已成功渲染整个页面
当我使用splash渲染整个目标页面来爬取整个网站时出现问题。某些页面不是随机成功的，所以我错误地获取了支持渲染工作完成后出现的信息。这意味着我尽管我可以从其他渲染结果中获取全部信息，但仅从渲染结果中
scrapy - 使用 Scrapy 抓取多个 URL
如何使用 Scrapy 抓取多个 URL？我是否被迫制作多个爬虫？ class TravelSpider(BaseSpider): name = "speedy" allowed_d
scrapy - 如何将所有 CPU 内核用于 Scrapy
我的scrapy程序无论如何只使用一个CPU内核CONCURRENT_REQUESTS我做。 scrapy中的某些方法是否可以在一个scrapy爬虫中使用所有cpu核心？ ps:好像有争论max_pr
python - Scrapy - 动态等待页面加载 - selenium + scrapy
我最近用 python 和 Selenium 做了一个网络爬虫，我发现它做起来非常简单。该页面使用 ajax 调用来加载数据，最初我等待固定的 time_out 来加载页面。这工作了一段时间。之后，我
python - Scrapy:scrapy server需要一个项目，为什么？
我想用这个命令运行 scrapy 服务器: scrapy server 它失败了，因为没有项目。然后我创建一个空项目来运行服务器，并成功部署另一个项目。但是，scrapy 服务器无法处理这个项目，并告
python - Scrapy - 在一个 scrapy 脚本中抓取不同的网页
我正在创建一个网络应用程序，用于从不同网站抓取一长串鞋子。这是我的两个单独的 scrapy 脚本: http://store.nike.com/us/en_us/pw/mens-clearance-s

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 从 Flask 运行 Scrapy