- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我对 Python 和 Django 非常陌生。我目前正在探索使用 Scrapy 来抓取网站并将数据保存到 Django 数据库。我的目标是根据用户提供的域运行蜘蛛。
我写了一个蜘蛛,它可以提取我需要的数据,并在调用时将其正确存储在一个 json 文件中
scrapy crawl spider -o items.json -t json
如 scrapy tutorial 中所述.
我现在的目标是让蜘蛛成功地将数据保存到 Django 数据库,然后根据用户输入让蜘蛛运行。
我知道有很多关于这个主题的帖子,例如: link 1 link 2 link 3
但是我花了超过 8 个小时试图让它工作,我假设我不是唯一一个仍然面临这个问题的人。因此,我将尝试收集到目前为止我在这篇文章中获得的所有知识,并希望稍后发布一个可行的解决方案。正因为如此,这篇文章比较长。
在我看来,将数据从 Scrapy 保存到 Django 数据库有两种不同的解决方案。一种是使用DjangoItem ,另一种是直接导入模型(如here)。
我不完全了解这两者的优缺点,但似乎区别只是使用 DjangoItem 更方便更短。
我做了什么:
我已添加:
def setup_django_env(path):
import imp, os
from django.core.management import setup_environ
f, filename, desc = imp.find_module('settings', [path])
project = imp.load_module('settings', f, filename, desc)
setup_environ(project)
setup_django_env('/Users/Anders/DjangoTraining/wsgi/')
我得到的错误是:
ImportError: No module named settings
我认为我以错误的方式定义了我的 Django 项目的路径?
我还尝试了以下方法:
setup_django_env('../../')
如何正确定义 Django 项目的路径? (如果这是问题)
最佳答案
我认为主要的误解是包路径与设置模块路径。为了从外部脚本使用 django 的模型,您需要设置 DJANGO_SETTINGS_MODULE
。然后,这个模块必须是 importable (即如果设置路径是 myproject.settings
,那么语句 from myproject import settings
应该在python shell)。
由于 django 中的大多数项目都是在默认 PYTHONPATH
之外的路径中创建的,因此您必须将项目的路径添加到 PYTHONPATH
环境变量中。
这里是创建一个完整工作(和最小)的 Django 模型集成到 Scrapy 项目的分步指南:
注意:此说明在最后一次编辑日期有效。如果它不适合您,请添加评论并描述您的问题和 scrapy/django 版本。
项目将在 /home/rolando/projects
目录中创建。
启动 django 项目。
$ cd ~/projects
$ django-admin startproject myweb
$ cd myweb
$ ./manage.py startapp myapp
在 myapp/models.py
中创建模型。
from django.db import models
class Person(models.Model):
name = models.CharField(max_length=32)
将 myapp
添加到 myweb/settings.py
中的 INSTALLED_APPS
。
# at the end of settings.py
INSTALLED_APPS += ('myapp',)
在 myweb/settings.py
中设置我的数据库设置。
# at the end of settings.py
DATABASES['default']['ENGINE'] = 'django.db.backends.sqlite3'
DATABASES['default']['NAME'] = '/tmp/myweb.db'
创建数据库。
$ ./manage.py syncdb --noinput
Creating tables ...
Installing custom SQL ...
Installing indexes ...
Installed 0 object(s) from 0 fixture(s)
创建 scrapy 项目。
$ cd ~/projects
$ scrapy startproject mybot
$ cd mybot
在 mybot/items.py
中创建一个项目。
注意:在较新版本的 Scrapy 中,您需要安装 scrapy_djangoitem
并使用 from scrapy_djangoitem import DjangoItem
。
from scrapy.contrib.djangoitem import DjangoItem
from scrapy.item import Field
from myapp.models import Person
class PersonItem(DjangoItem):
# fields for this item are automatically created from the django model
django_model = Person
最终的目录结构是这样的:
/home/rolando/projects
├── mybot
│ ├── mybot
│ │ ├── __init__.py
│ │ ├── items.py
│ │ ├── pipelines.py
│ │ ├── settings.py
│ │ └── spiders
│ │ └── __init__.py
│ └── scrapy.cfg
└── myweb
├── manage.py
├── myapp
│ ├── __init__.py
│ ├── models.py
│ ├── tests.py
│ └── views.py
└── myweb
├── __init__.py
├── settings.py
├── urls.py
└── wsgi.py
从这里开始,基本上我们已经完成了在 scrapy 项目中使用 django 模型所需的代码。我们可以立即使用 scrapy shell
命令对其进行测试,但请注意所需的环境变量:
$ cd ~/projects/mybot
$ PYTHONPATH=~/projects/myweb DJANGO_SETTINGS_MODULE=myweb.settings scrapy shell
# ... scrapy banner, debug messages, python banner, etc.
In [1]: from mybot.items import PersonItem
In [2]: i = PersonItem(name='rolando')
In [3]: i.save()
Out[3]: <Person: Person object>
In [4]: PersonItem.django_model.objects.get(name='rolando')
Out[4]: <Person: Person object>
所以,它按预期工作。
最后,您可能不想在每次运行机器人时都设置环境变量。有很多方法可以解决这个问题,但最好的方法是项目的包实际上安装在 PYTHONPATH
中设置的路径中。
这是最简单的解决方案之一:将此行添加到您的 mybot/settings.py
文件以设置环境变量。
# Setting up django's project full path.
import sys
sys.path.insert(0, '/home/rolando/projects/myweb')
# Setting up django's settings module name.
# This module is located at /home/rolando/projects/myweb/myweb/settings.py.
import os
os.environ['DJANGO_SETTINGS_MODULE'] = 'myweb.settings'
# Since Django 1.7, setup() call is required to populate the apps registry.
import django; django.setup()
注意: 一个更好的路径黑客方法是在两个项目中都有基于 setuptools
的 setup.py
文件并运行 python setup.py develop
它将你的项目路径链接到 python 的路径(我假设你使用 virtualenv
)。
这就够了。为了完整起见,这里是一个完整工作项目的基本蜘蛛和管道:
创建蜘蛛。
$ cd ~/projects/mybot
$ scrapy genspider -t basic example example.com
蜘蛛代码:
# file: mybot/spiders/example.py
from scrapy.spider import BaseSpider
from mybot.items import PersonItem
class ExampleSpider(BaseSpider):
name = "example"
allowed_domains = ["example.com"]
start_urls = ['http://www.example.com/']
def parse(self, response):
# do stuff
return PersonItem(name='rolando')
在 mybot/pipelines.py
中创建管道以保存项目。
class MybotPipeline(object):
def process_item(self, item, spider):
item.save()
return item
这里你可以使用 item.save()
如果你正在使用 DjangoItem
类,或者直接导入 django 模型并手动创建对象。这两种方式的主要问题是定义环境变量,以便您可以使用 django 模型。
将管道设置添加到您的 mybot/settings.py
文件中。
ITEM_PIPELINES = {
'mybot.pipelines.MybotPipeline': 1000,
}
运行蜘蛛。
$ scrapy crawl example
关于python - 使用 scrapy : defining path to Django project 访问 Django 模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19068308/
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
PowerShell Web Access 允许您通过 Web 浏览器运行 PowerShell cmdlet。它显示了一个基于 Web 的控制台窗口。 有没有办法运行 cmdlet 而无需在控制台窗
我尝试在无需用户登录的情况下访问 Sharepoint 文件。 我可以通过以下任一方式获取访问 token 方法一: var client = new RestClient("https://logi
我目前正在尝试通过 Chrome 扩展程序访问 Google 服务。我的理解是,对于 JS 应用程序,Google 首选的身份验证机制是 OAuth。我的应用目前已成功通过 OAuth 向服务进行身份
假设我有纯抽象类 IHandler 和派生自它的类: class IHandler { public: virtual int process_input(char input) = 0; };
我有一个带有 ThymeLeaf 和 Dojo 的 Spring 应用程序,这给我带来了问题。当我从我的 HTML 文件中引用 CSS 文件时,它们在 Firebug 中显示为中止。但是,当我通过在地
这个问题已经有答案了: JavaScript property access: dot notation vs. brackets? (17 个回答) 已关闭 6 年前。 为什么这不起作用? func
我想将所有流量重定向到 https,只有 robot.txt 应该可以通过 http 访问。 是否可以为 robot.txt 文件创建异常(exception)? 我的 .htaccess 文件: R
我遇到了 LinkedIn OAuth2: "Unable to verify access token" 中描述的相同问题;但是,那里描述的解决方案并不能解决我的问题。 我能够成功请求访问 toke
问题 我有一个暴露给 *:8080 的 Docker 服务容器. 我无法通过 localhost:8080 访问容器. Chrome /curl无限期挂断。 但是如果我使用任何其他本地IP,我就可以访
我正在使用 Google 的 Oauth 2.0 来获取用户的 access_token,但我不知道如何将它与 imaplib 一起使用来访问收件箱。 最佳答案 下面是带有 oauth 2.0 的 I
我正在做 docker 入门指南:https://docs.docker.com/get-started/part3/#recap-and-cheat-sheet-optional docker-co
我正在尝试使用静态 IP 在 AKS 上创建一个 Web 应用程序,自然找到了一个带有 Nginx ingress controller in Azure's documentation 的解决方案。
这是我在名为 foo.js 的文件中的代码。 console.log('module.exports:', module.exports) console.log('module.id:', modu
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
我正在使用 MGTwitterEngine"将 twitter 集成到我的应用程序中。它在 iOS 4.2 上运行良好。当我尝试从任何 iOS 5 设备访问 twitter 时,我遇到了身份验证 to
我试图理解访问键。我读过https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-se
我正在使用以下 API 列出我的 Facebook 好友。 https://graph.facebook.com/me/friends?access_token= ??? 我想知道访问 token 过
401 Unauthorized - Show headers - { "error": { "errors": [ { "domain": "global", "reas
我已经将我的 django 应用程序部署到 heroku 并使用 Amazon s3 存储桶存储静态文件,我发现从 s3 存储桶到 heroku 获取数据没有问题。但是,当我测试查看内容存储位置时,除
我是一名优秀的程序员,十分优秀!