- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Django-Scrapy生成后端json接口的方法示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
网上的关于django-scrapy的介绍比较少,该博客只在本人查资料的过程中学习的,如果不对之处,希望指出改正; 。
以后的博客可能不会再出关于django相关的点; 。
人心太浮躁,个人深度不够,只学习了一些皮毛,后面博客只求精,不求多; 。
希望能坚持下来。加油! 。
学习点:
实现效果:
django与scrapy的创建:
django的创建:
1
|
django startproject 项目名称
|
1
2
|
cd 项目名称
python manage.py startapp appname
|
例如:
scrapy的创建:
1
2
3
4
5
|
# cd django的根目录下
cd job_hnting
scrapy startproject 项目名称
#创建爬虫
scrapy genspider spidername
'www.xxx.com'
|
例如:
setting的设置:
在scrapy框架中的setting指向django,让django知道有scrapy,
在scrapy中的setting设置; 。
1
2
3
4
5
6
7
|
import
os
import
django
#导入
os.environ[
'DJANGO_SETTINGS_MODULE'
]
=
'job_hnting.settings'
#手动初始化
django.setup()
|
如:
scrapy_djangoitem使用:
1
|
pip install scrapy_djangoitem
|
该库在scrapy项目下的item中编写引入:
1
2
3
4
5
6
7
8
9
10
|
import
scrapy
# 引入django中app中models文件中的类
from
app51.models
import
app51data
# scrapy与django对接的库
from
scrapy_djangoitem
import
DjangoItem
class
JobprojectItem(DjangoItem):
#引用django下的model中的类名
django_model
=
app51data
|
数据存储部分对接在后面解释,现在大体框架完整; 。
scrapy爬取保存部分:
首先编写scrapy爬虫部分:
我们选取的是51招聘网站的数据:
爬取分为三个函数:
51job的反爬手段:
将json的数据格式隐藏在网页结构中,网上教程需要别的库解析(自行了解), 。
我们的方法是使用正则匹配提取定位到数据部分,使用json库解析:
1
2
3
|
# 定位数据位置,提取json数据
search_pattern
=
"window.__SEARCH_RESULT__ = (.*?)</script>"
jsonText
=
re.search(search_pattern, response.text, re.M | re.S).group(
1
)
|
获得关键字总页数:
1
2
3
|
# 解析json数据
jsonObject
=
json.loads(jsonText)
number
=
jsonObject[
'total_page'
]
|
在主函数中构造页面url并给到解析函数
1
2
3
4
5
|
for
number
in
range
(
1
,
int
(numbers)
+
1
):
next_page_url
=
self
.url.
format
(
self
.name,number)
# print(next_page_url)
#构造的Urlcallback到data_parse函数中
yield
scrapy.Request(url
=
next_page_url,callback
=
self
.data_parse)
|
最后在解析函数中提取需要的数据:
1
2
3
4
5
6
7
8
9
|
for
job_item
in
jsonObject[
"engine_search_result"
]:
items
=
JobprojectItem()
items[
'job_name'
]
=
job_item[
'job_name'
]
items[
'company_name'
]
=
job_item[
"company_name"
]
# 发布时间
items[
'Releasetime'
]
=
job_item[
'issuedate'
]
items[
'salary'
]
=
job_item[
'providesalary_text'
]
items[
'site'
]
=
job_item[
'workarea_text'
]
.......
|
相关的细节部分需要自己调整,完整代码在 GitHub 中.
数据爬取部分解决后,需要到scrapy项目中的pipline文件保存; 。
1
2
3
4
|
class
SeemeispiderPipeline(
object
):
def
process_item(
self
, item, spider):
item.save()
return
item
|
记得在setting文件中取消掉pipline的注释 。
设置数据库:
Django配置数据库有两种方法:
方法一:直接在settings.py文件中添加数据库配置信息(个人使用的) 。
1
2
3
4
5
6
7
8
9
10
11
|
DATABASES
=
{
# 方法一
'default'
: {
'ENGINE'
:
'django.db.backends.mysql'
,
# 数据库引擎
'NAME'
:
'mysite'
,
# 数据库名称
'USER'
:
'root'
,
# 数据库登录用户名
'PASSWORD'
:
'123'
,
# 密码
'HOST'
:
'127.0.0.1'
,
# 数据库主机IP,如保持默认,则为127.0.0.1
'PORT'
:
3306
,
# 数据库端口号,如保持默认,则为3306
}
}
|
方法二:将数据库配置信息存到一个文件中,在settings.py文件中将其引入.
新建数据库配置文件my.cnf(名字随意选择) 。
1
2
3
4
5
6
7
|
[client]
database
=
blog
user
=
blog
password
=
blog
host
=
127.0
.
0.1
port
=
3306
default
-
character
-
set
=
utf8
|
在settings.py文件中引入my.cnf文件 。
1
2
3
4
5
6
7
8
9
|
DATABASES
=
{
# 方法二:
'default'
: {
'ENGINE'
:
'django.db.backends.mysql'
,
'OPTIONS'
: {
'read_default_file'
:
'utils/dbs/my.cnf'
,
},
}
}
|
启用Django与mysql的连接 。
在生产环境中安装pymysql 并且需要在settings.py文件所在包中的 __init__.py 中导入pymysql 。
1
2
|
import
pymysql
pymysql.install_as_MySQLdb()
|
对应前面的item,在spider中编写时按照model设置的即可;,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
from
django.db
import
models
# Create your models here.
#定义app51的数据模型
class
app51data(models.Model):
#发布时间,长度20
Releasetime
=
models.CharField(max_length
=
20
)
#职位名,长度50
job_name
=
models.CharField(max_length
=
50
)
#薪水
salary
=
models.CharField(max_length
=
20
)
#工作地点
site
=
models.CharField(max_length
=
50
)
#学历水平
education
=
models.CharField(max_length
=
20
)
#公司名称
company_name
=
models.CharField(max_length
=
50
)
#工作经验
Workexperience
=
models.CharField(max_length
=
20
)
#指定表名
class
Meta:
db_table
=
'jobsql51'
def
__str__(
self
):
return
self
.job_name
|
当指定完表名后,在DBMS中只需要创建对应的数据库即可,表名自动创建 。
每次修改数据库都要进行以下命令:
1
2
|
python manage.py makemigrations
python manage.py migrate
|
到此mysql数据库配置完成 。
配置数据库时遇到的错误:
Django启动报错:AttributeError: 'str' object has no attribute 'decode' 。
解决方法:
找到Django安装目录 。
G:\env\django_job\Lib\site-packages\django\db\backends\mysql\operations.py 。
编辑operations.py; 。
将146行的decode修改成encode 。
1
2
3
4
5
6
7
8
9
|
def
last_executed_query(
self
, cursor, sql, params):
# With MySQLdb, cursor objects have an (undocumented) "_executed"
# attribute where the exact query sent to the database is saved.
# See MySQLdb/cursors.py in the source distribution.
query
=
getattr
(cursor,
'_executed'
,
None
)
if
query
is
not
None
:
#query = query.decode(errors='replace')
uery
=
query.encode(errors
=
'replace'
)
return
query
|
django配置:
关于django的基础配置,如路由,app的注册等基础用法,暂时不过多说明; 。
以下主要关于APP中视图的配置,生成json; 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
from
django.shortcuts
import
render
from
django.http
import
HttpResponse
# Create your views here.
#引入数据
from
.models
import
app51data
import
json
def
index(request):
# return HttpResponse("hello world")
# return render(request,'index.html')
#获取所有的对象,转换成json格式
data
=
app51data.objects.
all
()
list3
=
[]
i
=
1
for
var
in
data:
data
=
{}
data[
'id'
]
=
i
data[
'Releasetime'
]
=
var.Releasetime
data[
'job_name'
]
=
var.job_name
data[
'salary'
]
=
var.salary
data[
'site'
]
=
var.site
data[
'education'
]
=
var.education
data[
'company_name'
]
=
var.company_name
data[
'Workexperience'
]
=
var.Workexperience
list3.append(data)
i
+
=
1
# a = json.dumps(data)
# b = json.dumps(list2)
# 将集合或字典转换成json 对象
c
=
json.dumps(list3)
return
HttpResponse(c)
|
实现效果:
完整代码在 GitHub 中,希望随手star,感谢! 。
到此这篇关于Django-Scrapy生成后端json接口的方法示例的文章就介绍到这了,更多相关Django Scrapy生成json接口内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我! 。
原文链接:https://www.cnblogs.com/xbhog/p/13761988.html 。
最后此篇关于Django-Scrapy生成后端json接口的方法示例的文章就讲到这里了,如果你想了解更多关于Django-Scrapy生成后端json接口的方法示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我正在尝试在我的代码库中为我正在编写的游戏服务器更多地使用接口(interface),并了解高级概念以及何时应该使用接口(interface)(我认为)。在我的例子中,我使用它们将我的包相互分离,并使
我有一个名为 Widget 的接口(interface),它在我的整个项目中都在使用。但是,它也用作名为 Widget 的组件的 Prop 。 处理此问题的最佳方法是什么?我应该更改我的 Widget
有一个接口(interface)可以是多个接口(interface)之一 interface a {x:string} interface b {y:string} interface c {z:st
我遇到了一种情况,我需要调用第三方服务来获取一些信息。这些服务对于不同的客户可能会有所不同。我的界面中有一个身份验证功能,如下所示。 interface IServiceProvider { bool
在我的例子中,“RequestHandlerProxy”是一个结构,其字段为接口(interface)“IAdapter”,接口(interface)有可能被调用的方法,该方法的输入为结构“Reque
我有一个接口(interface)Interface1,它已由类A实现,并且设置了一些私有(private)变量值,并且我将类A的对象发送到下一个接受输入作为Interface2的类。那么我怎样才能将
假设我有这样的类和接口(interface)结构: interface IService {} interface IEmailService : IService { Task SendAs
有人知道我在哪里可以找到 XML-RPC 接口(interface)的定义(在 OpenERP 7 中)?我想知道创建或获取对象需要哪些参数和对象属性。每个元素的 XML 示例也将非常有帮助。 最佳答
最近,我一直在阅读有关接口(interface)是抽象的错误概念的文章。一篇这样的帖子是http://blog.ploeh.dk/2010/12/02/InterfacesAreNotAbstract
如果我有一个由第三方实现的现有 IInterface 后代,并且我想添加辅助例程,Delphi 是否提供了任何简单的方法来实现此目的,而无需手动重定向每个接口(interface)方法?也就是说,给定
我正在尝试将 Article 数组分配给我的 Mongoose 文档,但 Typescript 似乎不喜欢这样,我不知道为什么它显示此警告/错误,表明它不可分配. 我的 Mongoose 模式和接口(
我有两个接口(interface): public interface IController { void doSomething(IEntity thing); } public inte
是否可以创建一个扩展 Serializable 接口(interface)的接口(interface)? 如果是,那么扩展接口(interface)的行为是否会像 Serilizable 接口(int
我试图在两个存储之间创建一个中间层,它从存储 A 中获取数据,将其转换为相应类型的存储 B,然后存储它。由于我需要转换大约 50-100 种类型,我希望使用 map[string]func 并根据 s
我正在处理一个要求,其中我收到一个 JSON 对象,其中包含一个日期值作为字符串。我的任务是将 Date 对象存储在数据库中。 这种东西: {"start_date": "2019-05-29", "
我们的方法的目标是为我们现有的 DAO 和模型类引入接口(interface)。模型类由各种类型的资源 ID 标识,资源 ID 不仅仅是随机数,还带有语义和行为。因此,我们必须用对象而不是原始类型来表
Collection 接口(interface)有多个方法。 List 接口(interface)扩展了 Collection 接口(interface)。它声明与 Collection 接口(int
我有一个 Java 服务器应用程序,它使用 Jackson 使用反射 API 对 DTO 进行一般序列化。例如对于这个 DTO 接口(interface): package com.acme.libr
如果我在 Kotlin 中有一个接口(interface): interface KotlinInterface { val id: String } 我可以这样实现: class MyCla
我知道Java中所有访问修饰符之间的区别。然而,有人问了我一个非常有趣的问题,我很难找到答案:Java 中的 private 接口(interface)和 public 接口(interface)有什
我是一名优秀的程序员,十分优秀!