gpt4 book ai didi

python - 在 django View 中获取抓取的 scrapy 项目

转载 作者:太空宇宙 更新时间:2023-11-03 16:47:25 24 4
gpt4 key购买 nike

我想从 django View 启动 scrapy 抓取(我知道它会阻塞,现在不关心,我稍后会用 futures 或类似的东西来处理它)并且我想恢复 scrapy 项目爬行的结果(并用它们做事)。

我不希望它们存储在我的数据库中(这就是 scrapy-djangoitem 所做的事情),它们不会停留在那里。

现在我正在使用 scrapy.crawler.CrawlerProcess 从 django 内部启动抓取,我认为信号(比如 scrapy.signals.item_scraped 也许?)可能是可行的方法,但我不明白如何将所有这些放在一起。

最佳答案

我建议您从 Django 中卸载爬行并将其保留为您的 Web 应用程序正在处理的另一个 JSON 服务 - 可能需要比正常调用更高的最大超时。

您可以通过三种方法来解决此问题:

  1. 使用类似 ScrapyRT 的内容并让您的 Django 应用程序请求您放置蜘蛛服务器的 URL。
  2. 让 Django 访问 SQLite 数据库,其中 Scrapy 蜘蛛被配置为删除数据,并将您的蜘蛛部署到 scrapyd服务器。
  3. 在 Scrapinghub 的 Scrapy Cloud 上运行您的蜘蛛。与 #2 相同,但还允许您通过调用 API 上的项目端点来获取数据。

关于python - 在 django View 中获取抓取的 scrapy 项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36182813/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com