Django-Scrapy生成后端json接口的方法示例-6ren

Django-Scrapy生成后端json接口的方法示例

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Django-Scrapy生成后端json接口的方法示例由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

网上的关于django-scrapy的介绍比较少，该博客只在本人查资料的过程中学习的，如果不对之处，希望指出改正；。

以后的博客可能不会再出关于django相关的点；。

人心太浮躁，个人深度不够，只学习了一些皮毛，后面博客只求精，不求多；。

希望能坚持下来。加油！。

学习点:

实现效果
django与scrapy的创建
setting中对接的位置和代码段
scrapy_djangoitem使用
scrapy数据爬取保存部分
数据库设计以及问题部分
django配置

实现效果:

Django-Scrapy生成后端json接口的方法示例

django与scrapy的创建:

django的创建:

 
    ? 
   
         django startproject 项目名称

 
    ? 
   
         cd 项目名称 
        
         python manage.py startapp appname

例如:

Django-Scrapy生成后端json接口的方法示例

scrapy的创建:

 
    ? 
   
         # cd django的根目录下 
        
         cd job_hnting 
        
         scrapy startproject 项目名称 
        
         #创建爬虫 
        
         scrapy genspider spidername  
         'www.xxx.com'

例如:

Django-Scrapy生成后端json接口的方法示例

setting的设置:

在scrapy框架中的setting指向django，让django知道有scrapy,

在scrapy中的setting设置；。

 
    ? 
   
         import 
         os 
        
         import 
         django 
        
         #导入 
        
         os.environ[ 
         'DJANGO_SETTINGS_MODULE' 
         ]  
         = 
         'job_hnting.settings' 
        
         #手动初始化 
        
         django.setup()

如:

Django-Scrapy生成后端json接口的方法示例

scrapy_djangoitem使用:

 
    ? 
   
         pip install scrapy_djangoitem

该库在scrapy项目下的item中编写引入:

 
    ? 
   
         import 
         scrapy 
        
         # 引入django中app中models文件中的类 
        
         from 
         app51.models  
         import 
         app51data 
        
         # scrapy与django对接的库 
        
         from 
         scrapy_djangoitem  
         import 
         DjangoItem 
        
         class 
         JobprojectItem(DjangoItem): 
        
         #引用django下的model中的类名 
        
         django_model  
         = 
         app51data

数据存储部分对接在后面解释，现在大体框架完整；。

scrapy爬取保存部分:

首先编写scrapy爬虫部分:

我们选取的是51招聘网站的数据:

爬取分为三个函数:

主函数
解析函数
总页数函数

51job的反爬手段:

将json的数据格式隐藏在网页结构中，网上教程需要别的库解析（自行了解），。

我们的方法是使用正则匹配提取定位到数据部分，使用json库解析:

 
    ? 
   
         # 定位数据位置，提取json数据 
        
         search_pattern  
         = 
         "window.__SEARCH_RESULT__ = (.*?)</script>" 
        
         jsonText  
         = 
         re.search(search_pattern, response.text, re.M | re.S).group( 
         1 
         )

获得关键字总页数:

 
    ? 
   
         # 解析json数据 
        
         jsonObject  
         = 
         json.loads(jsonText) 
        
         number  
         = 
         jsonObject[ 
         'total_page' 
         ]

在主函数中构造页面url并给到解析函数

 
    ? 
   
         for 
         number  
         in 
         range 
         ( 
         1 
         , 
         int 
         (numbers) 
         + 
         1 
         ): 
        
         next_page_url  
         = 
         self 
         .url. 
         format 
         ( 
         self 
         .name,number) 
        
         # print(next_page_url) 
        
         #构造的Urlcallback到data_parse函数中 
        
         yield 
         scrapy.Request(url 
         = 
         next_page_url,callback 
         = 
         self 
         .data_parse)

最后在解析函数中提取需要的数据:

 
    ? 
   
         for 
         job_item  
         in 
         jsonObject[ 
         "engine_search_result" 
         ]: 
        
         items  
         = 
         JobprojectItem() 
        
         items[ 
         'job_name' 
         ]  
         = 
         job_item[ 
         'job_name' 
         ] 
        
         items[ 
         'company_name' 
         ]  
         = 
         job_item[ 
         "company_name" 
         ] 
        
         # 发布时间 
        
         items[ 
         'Releasetime' 
         ]  
         = 
         job_item[ 
         'issuedate' 
         ] 
        
         items[ 
         'salary' 
         ]  
         = 
         job_item[ 
         'providesalary_text' 
         ] 
        
         items[ 
         'site' 
         ]  
         = 
         job_item[ 
         'workarea_text' 
         ] 
        
         .......

相关的细节部分需要自己调整，完整代码在 GitHub 中.

数据爬取部分解决后，需要到scrapy项目中的pipline文件保存；。

 
    ? 
   
         class 
         SeemeispiderPipeline( 
         object 
         ): 
        
         def 
         process_item( 
         self 
         , item, spider): 
        
         item.save() 
        
         return 
         item

记得在setting文件中取消掉pipline的注释。

设置数据库:

Django配置数据库有两种方法:

方法一：直接在settings.py文件中添加数据库配置信息（个人使用的）。

 
    ? 
   
         DATABASES  
         = 
         { 
        
         # 方法一 
        
         'default' 
         : { 
        
         'ENGINE' 
         :  
         'django.db.backends.mysql' 
         ,   
         # 数据库引擎 
        
         'NAME' 
         :  
         'mysite' 
         ,             
         # 数据库名称 
        
         'USER' 
         :  
         'root' 
         ,            
         # 数据库登录用户名 
        
         'PASSWORD' 
         :  
         '123' 
         ,         
         # 密码 
        
         'HOST' 
         :  
         '127.0.0.1' 
         ,         
         # 数据库主机IP，如保持默认，则为127.0.0.1 
        
         'PORT' 
         :  
         3306 
         ,               
         # 数据库端口号，如保持默认，则为3306 
        
         } 
        
         }

方法二：将数据库配置信息存到一个文件中，在settings.py文件中将其引入.

新建数据库配置文件my.cnf(名字随意选择) 。

在settings.py文件中引入my.cnf文件。

 
    ? 
   
         DATABASES  
         = 
         { 
        
         # 方法二： 
        
         'default' 
         : { 
        
         'ENGINE' 
         :  
         'django.db.backends.mysql' 
         , 
        
         'OPTIONS' 
         : { 
        
         'read_default_file' 
         :  
         'utils/dbs/my.cnf' 
         , 
        
         }, 
        
         } 
        
         }

启用Django与mysql的连接。

在生产环境中安装pymysql 并且需要在settings.py文件所在包中的 __init__.py 中导入pymysql 。

Django-Scrapy生成后端json接口的方法示例

 
    ? 
   
         import 
         pymysql 
        
         pymysql.install_as_MySQLdb()

对应前面的item，在spider中编写时按照model设置的即可；,

 
    ? 
   
         from 
         django.db  
         import 
         models 
        
         # Create your models here. 
        
         #定义app51的数据模型 
        
         class 
         app51data(models.Model): 
        
         #发布时间,长度20 
        
         Releasetime  
         = 
         models.CharField(max_length 
         = 
         20 
         ) 
        
         #职位名，长度50 
        
         job_name  
         = 
         models.CharField(max_length 
         = 
         50 
         ) 
        
         #薪水 
        
         salary  
         = 
         models.CharField(max_length 
         = 
         20 
         ) 
        
         #工作地点 
        
         site  
         = 
         models.CharField(max_length 
         = 
         50 
         ) 
        
         #学历水平 
        
         education  
         = 
         models.CharField(max_length 
         = 
         20 
         ) 
        
         #公司名称 
        
         company_name  
         = 
         models.CharField(max_length 
         = 
         50 
         ) 
        
         #工作经验 
        
         Workexperience  
         = 
         models.CharField(max_length 
         = 
         20 
         ) 
        
         #指定表名 
        
         class 
         Meta: 
        
         db_table  
         = 
         'jobsql51' 
        
         def 
         __str__( 
         self 
         ): 
        
         return 
         self 
         .job_name

当指定完表名后，在DBMS中只需要创建对应的数据库即可，表名自动创建。

每次修改数据库都要进行以下命令:

 
    ? 
   
         python manage.py makemigrations 
        
         python manage.py migrate

到此mysql数据库配置完成。

配置数据库时遇到的错误:

Django启动报错：AttributeError: 'str' object has no attribute 'decode' 。

解决方法:

找到Django安装目录。

G:\env\django_job\Lib\site-packages\django\db\backends\mysql\operations.py 。

编辑operations.py；。

将146行的decode修改成encode 。

 
    ? 
   
         def 
         last_executed_query( 
         self 
         , cursor, sql, params): 
        
         # With MySQLdb, cursor objects have an (undocumented) "_executed" 
        
         # attribute where the exact query sent to the database is saved. 
        
         # See MySQLdb/cursors.py in the source distribution. 
        
         query  
         = 
         getattr 
         (cursor,  
         '_executed' 
         ,  
         None 
         ) 
        
         if 
         query  
         is 
         not 
         None 
         : 
        
         #query = query.decode(errors='replace') 
        
         uery  
         = 
         query.encode(errors 
         = 
         'replace' 
         ) 
        
         return 
         query

django配置:

关于django的基础配置，如路由，app的注册等基础用法，暂时不过多说明；。

以下主要关于APP中视图的配置，生成json；。

 
    ? 
   
         from 
         django.shortcuts  
         import 
         render 
        
         from 
         django.http  
         import 
         HttpResponse 
        
         # Create your views here. 
        
         #引入数据 
        
         from 
         .models  
         import 
         app51data 
        
         import 
         json 
        
         def 
         index(request): 
        
         # return HttpResponse("hello world") 
        
         # return render(request,'index.html') 
        
         #获取所有的对象，转换成json格式 
        
         data  
         = 
         app51data.objects. 
         all 
         () 
        
         list3  
         = 
         [] 
        
         i  
         = 
         1 
        
         for 
         var  
         in 
         data: 
        
         data  
         = 
         {} 
        
         data[ 
         'id' 
         ]  
         = 
         i 
        
         data[ 
         'Releasetime' 
         ]  
         = 
         var.Releasetime 
        
         data[ 
         'job_name' 
         ]  
         = 
         var.job_name 
        
         data[ 
         'salary' 
         ]  
         = 
         var.salary 
        
         data[ 
         'site' 
         ]  
         = 
         var.site 
        
         data[ 
         'education' 
         ]  
         = 
         var.education 
        
         data[ 
         'company_name' 
         ]  
         = 
         var.company_name 
        
         data[ 
         'Workexperience' 
         ]  
         = 
         var.Workexperience 
        
         list3.append(data) 
        
         i  
         + 
         = 
         1 
        
         # a = json.dumps(data) 
        
         # b = json.dumps(list2) 
        
         # 将集合或字典转换成json 对象 
        
         c  
         = 
         json.dumps(list3) 
        
         return 
         HttpResponse(c)

实现效果:

Django-Scrapy生成后端json接口的方法示例

完整代码在 GitHub 中，希望随手star，感谢！。

到此这篇关于Django-Scrapy生成后端json接口的方法示例的文章就介绍到这了,更多相关Django Scrapy生成json接口内容请搜索我以前的文章或继续浏览下面的相关文章希望大家以后多多支持我！。

原文链接：https://www.cnblogs.com/xbhog/p/13761988.html 。

最后此篇关于Django-Scrapy生成后端json接口的方法示例的文章就讲到这里了,如果你想了解更多关于Django-Scrapy生成后端json接口的方法示例的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： Content-Disposition使用方法和注意事项

文章推荐： Python colormap库的安装和使用详情

文章推荐：简单实现Servlet文件下载功能

文章推荐：江南百景图龟壳突破方法江南百景图龟壳突破攻略

Golang 接口(interface) & *接口(interface)
我正在尝试在我的代码库中为我正在编写的游戏服务器更多地使用接口(interface)，并了解高级概念以及何时应该使用接口(interface)(我认为)。在我的例子中，我使用它们将我的包相互分离，并使
reactjs - 接口(interface)命名约定(接口(interface)名称与组件名称冲突)
我有一个名为 Widget 的接口(interface)，它在我的整个项目中都在使用。但是，它也用作名为 Widget 的组件的 Prop 。处理此问题的最佳方法是什么？我应该更改我的 Widget
javascript - Typescript 接口(interface)作为一系列 OR 接口(interface)
有一个接口(interface)可以是多个接口(interface)之一 interface a {x:string} interface b {y:string} interface c {z:st
oop - 接口(interface)实现(接口(interface)隔离原则)
我遇到了一种情况，我需要调用第三方服务来获取一些信息。这些服务对于不同的客户可能会有所不同。我的界面中有一个身份验证功能，如下所示。 interface IServiceProvider { bool
go - 接口(interface)作为结构中的字段，接口(interface)调用将输入作为相同结构的方法
在我的例子中，“RequestHandlerProxy”是一个结构，其字段为接口(interface)“IAdapter”，接口(interface)有可能被调用的方法，该方法的输入为结构“Reque
java - 如何将一种类型(接口(interface))的对象转换为另一种类型(接口(interface))？
我有一个接口(interface)Interface1，它已由类A实现，并且设置了一些私有(private)变量值，并且我将类A的对象发送到下一个接受输入作为Interface2的类。那么我怎样才能将
c# - 接口(interface)接口(interface) : T
假设我有这样的类和接口(interface)结构: interface IService {} interface IEmailService : IService { Task SendAs
OpenERP XML-RPC 接口(interface)和对象定义/接口(interface)
有人知道我在哪里可以找到 XML-RPC 接口(interface)的定义(在 OpenERP 7 中)？我想知道创建或获取对象需要哪些参数和对象属性。每个元素的 XML 示例也将非常有帮助。最佳答
design-patterns - 接口(interface)(接口(interface)/抽象类)不是抽象吗？
最近，我一直在阅读有关接口(interface)是抽象的错误概念的文章。一篇这样的帖子是http://blog.ploeh.dk/2010/12/02/InterfacesAreNotAbstract
delphi - 接口(interface)助手或委托(delegate)接口(interface)父级
如果我有一个由第三方实现的现有 IInterface 后代，并且我想添加辅助例程，Delphi 是否提供了任何简单的方法来实现此目的，而无需手动重定向每个接口(interface)方法？也就是说，给定
node.js - Typescript 接口(interface)[] 与 [接口(interface)]
我正在尝试将 Article 数组分配给我的 Mongoose 文档，但 Typescript 似乎不喜欢这样，我不知道为什么它显示此警告/错误，表明它不可分配. 我的 Mongoose 模式和接口(
c# - 实现包含抽象/接口(interface)类型参数的抽象/接口(interface)方法
我有两个接口(interface): public interface IController { void doSomething(IEntity thing); } public inte
java - 接口(interface)可以扩展 Serializable 接口(interface)吗？
是否可以创建一个扩展 Serializable 接口(interface)的接口(interface)？如果是，那么扩展接口(interface)的行为是否会像 Serilizable 接口(int
go - 接口(interface)类型的函数返回(另一个)接口(interface)类型的结构
我试图在两个存储之间创建一个中间层，它从存储 A 中获取数据，将其转换为相应类型的存储 B，然后存储它。由于我需要转换大约 50-100 种类型，我希望使用 map[string]func 并根据 s
go - 是否有必要实现 Scanner 接口(interface)和 Valuer 接口(interface)
我正在处理一个要求，其中我收到一个 JSON 对象，其中包含一个日期值作为字符串。我的任务是将 Date 对象存储在数据库中。这种东西: {"start_date": "2019-05-29", "
java - 如何创建使用另一个通用 Java 接口(interface)类型化的通用 Java 接口(interface)？
我们的方法的目标是为我们现有的 DAO 和模型类引入接口(interface)。模型类由各种类型的资源 ID 标识，资源 ID 不仅仅是随机数，还带有语义和行为。因此，我们必须用对象而不是原始类型来表
java - 为什么 List 接口(interface)扩展 Collection 接口(interface)？
Collection 接口(interface)有多个方法。 List 接口(interface)扩展了 Collection 接口(interface)。它声明与 Collection 接口(int
java - 从 Java 接口(interface)生成 Typescript 接口(interface)
我有一个 Java 服务器应用程序，它使用 Jackson 使用反射 API 对 DTO 进行一般序列化。例如对于这个 DTO 接口(interface): package com.acme.libr
java - 使用 Java 接口(interface)时的 Kotlin 接口(interface)实现行为
如果我在 Kotlin 中有一个接口(interface): interface KotlinInterface { val id: String } 我可以这样实现: class MyCla
java - Java中的公共(public)接口(interface)和私有(private)接口(interface)有什么区别
我知道Java中所有访问修饰符之间的区别。然而，有人问了我一个非常有趣的问题，我很难找到答案:Java 中的 private 接口(interface)和 public 接口(interface)有什

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Django-Scrapy生成后端json接口的方法示例