gpt4 book ai didi

python - 如何在 Heroku 云上部署 Scrapy 蜘蛛

转载 作者:太空狗 更新时间:2023-10-29 18:28:08 26 4
gpt4 key购买 nike

我在 scrapy 中开发了几个蜘蛛,我想在 Heroku 云上测试它们。有人知道如何在 Heroku 云上部署 Scrapy 蜘蛛吗?

最佳答案

是的,在 Heroku 上部署和运行 Scrapy 爬虫相当简单。

以一个真实的Scrapy项目为例,步骤如下:

  1. 克隆项目(注意,它必须有一个 requirements.txt 文件,Heroku 才能将其识别为 Python 项目):

    git clone https://github.com/scrapinghub/testspiders.git

  2. 将 cffi 添加到 requirement.txt 文件(例如 cffi==1.1.0)。

  3. 创建 Heroku 应用程序(这将添加一个新的 heroku git remote):

    heroku 创建

  4. 部署项目(当 slug 构建时,这将需要一段时间):

    git push heroku main

  5. 运行你的蜘蛛:

    heroku run scrapy crawl followall

一些注意事项:

  • Heroku 磁盘是临时的。如果你想将抓取的数据存储在一个持久的地方,你可以使用 S3 feed export (通过附加 -o s3://mybucket/items.jl)或使用插件(如 MongoHQ 或 Redis To Go)并编写管道以将您的项目存储在那里
  • 在 Heroku 上运行 Scrapyd 服务器会很酷,但目前不可能,因为 sqlite3 模块(Scrapyd 需要)在 Heroku 上不工作
  • 如果您想要一个更复杂的解决方案来部署您的 Scrapy 蜘蛛,请考虑设置您自己的 Scrapyd server或使用类似 Scrapy Cloud 的托管服务

关于python - 如何在 Heroku 云上部署 Scrapy 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12779184/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com