gpt4 book ai didi

python - Django自定义管理命令运行Scrapy : How to include Scrapy's options?

转载 作者:太空狗 更新时间:2023-10-29 18:31:48 25 4
gpt4 key购买 nike

我希望能够运行 Scrapy web crawling framework从 Django 内部。 Scrapy 本身只提供了一个命令行工具 scrapy 来执行它的命令,即该工具并不是有意编写为从外部程序调用。

用户Mikhail Korobov想出了一个nice solution ,即从 Django 自定义管理命令调用 Scrapy。为方便起见,我在这里重复他的解决方案:

# -*- coding: utf-8 -*-
# myapp/management/commands/scrapy.py

from __future__ import absolute_import
from django.core.management.base import BaseCommand

class Command(BaseCommand):

def run_from_argv(self, argv):
self._argv = argv
return super(Command, self).run_from_argv(argv)

def handle(self, *args, **options):
from scrapy.cmdline import execute
execute(self._argv[1:])

而不是调用例如scrapy crawl domain.com 我现在可以在 Django 项目中执行 python manage.py scrapy crawl domain.com。但是,Scrapy 命令的选项根本不会被解析。如果我执行 python manage.py scrapy crawl domain.com -o scraped_data.json -t json,我只会得到以下响应:

Usage: manage.py scrapy [options] 

manage.py: error: no such option: -o

那么我的问题是,如何扩展自定义管理命令来采用Scrapy的命令行选项?

不幸的是,Django 的 documentation of this part不是很广泛。我还阅读了 Python 的文档 optparse module但后来我就不清楚了。任何人都可以在这方面帮助我吗?非常感谢!

最佳答案

好的,我找到了解决问题的方法。它有点难看,但它有效。由于 Django 项目的 manage.py 命令不接受 Scrapy 的命令行选项,我将选项字符串分成两个参数,这两个参数被 manage.py 接受。解析成功后,我重新加入两个参数并将它们传递给 Scrapy。

也就是不写

python manage.py scrapy crawl domain.com -o scraped_data.json -t json

我在这样的选项之间加了空格

python manage.py scrapy crawl domain.com - o scraped_data.json - t json

我的句柄函数如下所示:

def handle(self, *args, **options):
arguments = self._argv[1:]
for arg in arguments:
if arg in ('-', '--'):
i = arguments.index(arg)
new_arg = ''.join((arguments[i], arguments[i+1]))
del arguments[i:i+2]
arguments.insert(i, new_arg)

from scrapy.cmdline import execute
execute(arguments)

与此同时,Mikhail Korobov 提供了最优解。看这里:

# -*- coding: utf-8 -*- 
# myapp/management/commands/scrapy.py

from __future__ import absolute_import
from django.core.management.base import BaseCommand

class Command(BaseCommand):

def run_from_argv(self, argv):
self._argv = argv
self.execute()

def handle(self, *args, **options):
from scrapy.cmdline import execute
execute(self._argv[1:])

关于python - Django自定义管理命令运行Scrapy : How to include Scrapy's options?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10564389/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com