Python通过DOM和SAX方式解析XML的应用实例分享-6ren

Python通过DOM和SAX方式解析XML的应用实例分享

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python通过DOM和SAX方式解析XML的应用实例分享由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

XML.DOM 。

需求有一个表，里面数据量比较大，每天一更新，其字段可以通过xml配置文件进行配置，即，可能每次建表的字段不一样.

上游跑时会根据配置从源文件中提取，到入库这一步需要根据配置进行建表.

解决写了一个简单的xml，配置需要字段及类型。

上游读取到对应的数据。

入库这一步，先把原表删除，根据配置建新表。

XML文件。

 
    ? 
   
 
     
       
       
         <? 
         xml 
         version 
         = 
         "1.0" 
         encoding 
         = 
         "UTF-8" 
         ?> 
        
 
         <!-- 表名 ,数据库名  可灵活配置插入哪个库哪个表 --> 
        
 
         < 
         table 
         name 
         = 
         "top_query" 
         db_name 
         = 
         "evaluting_sys" 
         > 
        
 
         <!-- 非业务主键，自增长,可配名，其他 INTEGER UNSIGNED AUTO_INCREMENT --> 
        
 
         < 
         primary_key 
         > 
        
 
         < 
         name 
         >id</ 
         name 
         > 
        
 
         </ 
         primary_key 
         > 
        
 
         <!-- 字段开始 --> 
        
 
         < 
         field 
         > 
        
 
         < 
         name 
         >query</ 
         name 
         > 
        
 
         < 
         type 
         >varchar(200)</ 
         type 
         > 
        
 
         < 
         is_index 
         >false</ 
         is_index 
         > 
        
 
         < 
         description 
         >query</ 
         description 
         > 
        
 
         </ 
         field 
         > 
        
 
         < 
         field 
         > 
        
 
         < 
         name 
         >pv</ 
         name 
         > 
        
 
         < 
         type 
         >integer</ 
         type 
         > 
        
 
         < 
         is_index 
         >false</ 
         is_index 
         > 
        
 
         < 
         description 
         >pv</ 
         description 
         > 
        
 
         </ 
         field 
         > 
        
 
         < 
         field 
         > 
        
 
         < 
         name 
         >avg_money</ 
         name 
         > 
        
 
         < 
         type 
         >integer</ 
         type 
         > 
        
 
         < 
         is_index 
         >false</ 
         is_index 
         > 
        
 
         < 
         description 
         ></ 
         description 
         > 
        
 
         </ 
         field 
         > 
        
 
         <!-- 字段配置结束 --> 
        
 
         </ 
         table 
         > 
        
 
     
 
   

处理脚本。

 
    ? 
   
         #!/usr/bin/python 
        
         # -*- coding:utf-8 -*- 
        
         #author: wklken 
        
         #desc: use to read db xml config. 
        
         #----------------------- 
        
         #2012-02-18 created 
        
         #---------------------- 
        
         import 
         sys,os 
        
         from 
         xml.dom  
         import 
         minidom, Node 
        
         def 
         read_dbconfig_xml(xml_file_path): 
        
         content  
         = 
         {} 
        
         root  
         = 
         minidom.parse(xml_file_path) 
        
         table  
         = 
         root.getElementsByTagName( 
         "table" 
         )[ 
         0 
         ] 
        
         #read dbname and table name. 
        
         table_name  
         = 
         table.getAttribute( 
         "name" 
         ) 
        
         db_name  
         = 
         table.getAttribute( 
         "db_name" 
         ) 
        
         if 
         len 
         (table_name) >  
         0 
         and 
         len 
         (db_name) >  
         0 
         : 
        
         db_sql  
         = 
         "create database if not exists `" 
         + 
         db_name  
         + 
         "`; use " 
         + 
         db_name  
         + 
         ";" 
        
         table_drop_sql  
         = 
         "drop " 
         + 
         table_name  
         + 
         " if exists " 
         + 
         table_name  
         + 
         ";" 
        
         content.update({ 
         "db_sql" 
         : db_sql}) 
        
         content.update({ 
         "table_sql" 
         : table_drop_sql }) 
        
         else 
         : 
        
         print 
         "Error:attribute is not define well! db_name=" 
         + 
         db_name  
         + 
         " ;table_name=" 
         + 
         table_name 
        
         sys.exit( 
         1 
         ) 
        
         #print table_name, db_name 
        
         table_create_sql  
         = 
         "create table " 
         + 
         table_name  
         + 
         "(" 
        
         #read primary cell 
        
         primary_key  
         = 
         table.getElementsByTagName( 
         "primary_key" 
         )[ 
         0 
         ] 
        
         primary_key_name  
         = 
         primary_key.getElementsByTagName( 
         "name" 
         )[ 
         0 
         ].childNodes[ 
         0 
         ].nodeValue 
        
         table_create_sql  
         + 
         = 
         primary_key_name  
         + 
         " INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY," 
        
         #print primary_key.toxml() 
        
         #read ordernary field 
        
         fields  
         = 
         table.getElementsByTagName( 
         "field" 
         ) 
        
         f_index  
         = 
         0 
        
         for 
         field  
         in 
         fields: 
        
         f_index  
         + 
         = 
         1 
        
         name  
         = 
         field.getElementsByTagName( 
         "name" 
         )[ 
         0 
         ].childNodes[ 
         0 
         ].nodeValue 
        
         type 
         = 
         field.getElementsByTagName( 
         "type" 
         )[ 
         0 
         ].childNodes[ 
         0 
         ].nodeValue 
        
         table_create_sql  
         + 
         = 
         name  
         + 
         " " 
         + 
         type 
        
         if 
         f_index ! 
         = 
         len 
         (fields): 
        
         table_create_sql  
         + 
         = 
         "," 
        
         is_index  
         = 
         field.getElementsByTagName( 
         "is_index" 
         )[ 
         0 
         ].childNodes[ 
         0 
         ].nodeValue 
        
         table_create_sql  
         + 
         = 
         ");" 
        
         content.update({ 
         "table_create_sql" 
         : table_create_sql}) 
        
         #character set latin1 collate latin1_danish_ci; 
        
         print 
         content 
        
         if 
         __name__  
         = 
         = 
         "__main__" 
         : 
        
         read_dbconfig_xml(sys.argv[ 
         1 
         ])

涉及方法 root = minidom.parse(xml_file_path) 获取dom对象。

root.getElementsByTagName("table") 根据tag获取节点列表。

table.getAttribute("name") 获取属性。

primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue 获取子节点的值（id 得到id）。

SAX 需求读取xml数据文件，文件较大，需要实时处理插入到数据库。

xml文档。

处理 sax处理时并不会像dom一样可以以类似节点的维度进行读取,它只有开始标签内容结束标签之分。

处理思想是：通过一个handler，对开始标签，内容，结束标签各有一个处理函数。

代码及注解 person 处理类。

 
    ? 
   
         from 
         xml.sax  
         import 
         handler,parseString 
        
         class 
         PersonHandler(handler.ContentHandler): 
        
         def 
         __init__( 
         self 
         , db_ops): 
        
         #db op obj 
        
         self 
         .db_ops  
         = 
         db_ops 
        
         #存储一个person的map 
        
         self 
         .person  
         = 
         {} 
        
         #当前的tag 
        
         self 
         .current_tag  
         = 
         "" 
        
         #是否是tag之间的内容 ，目的拿到tag间内容，不受空白的干扰 
        
         self 
         .in_quote  
         = 
         0 
        
         #开始，清空map 
        
         def 
         startElement( 
         self 
         , name, attr): 
        
         #以person，清空map 
        
         if 
         name  
         = 
         = 
         "person" 
         : 
        
         self 
         .person  
         = 
         {} 
        
         #记录 状态 
        
         self 
         .current_tag  
         = 
         name 
        
         self 
         .in_quote  
         = 
         1 
        
         #结束，插入数据库 
        
         def 
         endElement( 
         self 
         , name): 
        
         #以person结尾 代表读取一个person的信息结束 
        
         if 
         name  
         = 
         = 
         "person" 
         : 
        
         #do something 
        
         in_fields  
         = 
         tuple 
         ([ ( 
         '"' + self.person.get(i,"") + '"' 
         )  
         for 
         i  
         in 
         fields ]) 
        
         print 
         in_sql  
         % 
         in_fields 
        
         db_ops.insert( in_sql 
         % 
         (in_fields)) 
        
         #处理 
        
         self 
         .in_quote  
         = 
         0 
        
         def 
         characters( 
         self 
         , content): 
        
         #若是在tag之间的内容，更新到map中 
        
         if 
         self 
         .in_quote: 
        
         self 
         .person.update({ 
         self 
         .current_tag: content})

加上入库的完整代码。

 
    ? 
   
         #!/usr/bin/python 
        
         # -*- coding:utf-8 -*- 
        
         #parse_person.py 
        
         #version : 0.1 
        
         #author : wukunliang@163.com 
        
         #desc : parse person.xml and out sql 
        
         import 
         sys,os 
        
         import 
         MySQLdb 
        
         reload 
         (sys) 
        
         sys.setdefaultencoding( 
         'utf-8' 
         ) 
        
         in_sql  
         = 
         "insert into person( 
         id 
         ,sex,address,fansNum,summary,wbNum,gzNum,blog,edu,work,renZh,brithday) values( 
         % 
         s,  
         % 
         s,  
         % 
         s,  
         % 
         s,  
         % 
         s,  
         % 
         s, 
        
         % 
         s,  
         % 
         s,  
         % 
         s,  
         % 
         s,  
         % 
         s,  
         % 
         s)" 
        
         fields  
         = 
         ( 
         "id" 
         , 
         "sex" 
         , 
         "address" 
         , 
         "fansNum" 
         , 
         "summary" 
         , 
         "wbNum" 
         , 
         "gzNum" 
         , 
         "blog" 
         , 
         "edu" 
         , 
         "work" 
         , 
         "renZh" 
         , 
         "brithday" 
         ) 
        
         #数据库方法 
        
         class 
         Db_Connect: 
        
         def 
         __init__( 
         self 
         , db_host, user, pwd, db_name, charset 
         = 
         "utf8" 
         , use_unicode  
         = 
         True 
         ): 
        
         print 
         "init begin" 
        
         print 
         db_host, user, pwd, db_name, charset , use_unicode 
        
         self 
         .conn  
         = 
         MySQLdb.Connection(db_host, user, pwd, db_name, charset 
         = 
         charset , use_unicode 
         = 
         use_unicode) 
        
         print 
         "init end" 
        
         def 
         insert( 
         self 
         , sql): 
        
         try 
         : 
        
         n  
         = 
         self 
         .conn.cursor().execute(sql) 
        
         return 
         n 
        
         except 
         MySQLdb.Warning, e: 
        
         print 
         "Error: execute sql '" 
         ,sql, 
         "' failed" 
        
         def 
         close( 
         self 
         ): 
        
         self 
         .conn.close() 
        
         #person 处理类 
        
         from 
         xml.sax  
         import 
         handler,parseString 
        
         class 
         PersonHandler(handler.ContentHandler): 
        
         def 
         __init__( 
         self 
         , db_ops): 
        
         #db op obj 
        
         self 
         .db_ops  
         = 
         db_ops 
        
         #存储一个person的map 
        
         self 
         .person  
         = 
         {} 
        
         #当前的tag 
        
         self 
         .current_tag  
         = 
         "" 
        
         #是否是tag之间的内容 
        
         self 
         .in_quote  
         = 
         0 
        
         #开始，清空map 
        
         def 
         startElement( 
         self 
         , name, attr): 
        
         #以person，清空map 
        
         if 
         name  
         = 
         = 
         "person" 
         : 
        
         self 
         .person  
         = 
         {} 
        
         #记录 状态 
        
         self 
         .current_tag  
         = 
         name 
        
         self 
         .in_quote  
         = 
         1 
        
         #结束，插入数据库 
        
         def 
         endElement( 
         self 
         , name): 
        
         #以person结尾 代表读取一个person的信息结束 
        
         if 
         name  
         = 
         = 
         "person" 
         : 
        
         #do something 
        
         in_fields  
         = 
         tuple 
         ([ ( 
         '"' + self.person.get(i,"") + '"' 
         )  
         for 
         i  
         in 
         fields ]) 
        
         print 
         in_sql  
         % 
         in_fields 
        
         db_ops.insert( in_sql 
         % 
         (in_fields)) 
        
         #处理 
        
         self 
         .in_quote  
         = 
         0 
        
         def 
         characters( 
         self 
         , content): 
        
         #若是在tag之间的内容，更新到map中 
        
         if 
         self 
         .in_quote: 
        
         self 
         .person.update({ 
         self 
         .current_tag: content}) 
        
         if 
         __name__  
         = 
         = 
         "__main__" 
         : 
        
         f  
         = 
         open 
         ( 
         "./person.xml" 
         ) 
        
         #如果源文件gbk 转码   若是utf-8，去掉decode.encode 
        
         db_ops  
         = 
         Db_Connect( 
         "127.0.0.1" 
         ,  
         "root" 
         ,  
         "root" 
         ,  
         "test" 
         ) 
        
         parseString(f.read().decode( 
         "gbk" 
         ).encode( 
         "utf-8" 
         ), PersonHandler(db_ops)) 
        
         f.close() 
        
         db_ops.close()

平时拿python来分析数据，工具脚本还有hadoop streamming，但是用的面和深度实在欠缺只能说道行还浅，需要多多实践。

最后此篇关于Python通过DOM和SAX方式解析XML的应用实例分享的文章就讲到这里了,如果你想了解更多关于Python通过DOM和SAX方式解析XML的应用实例分享的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： android电源信息查看(电量、温度、电压)实例代码

文章推荐：详解在Python程序中解析并修改XML内容的方法

文章推荐： Android调用堆栈跟踪实例分析

文章推荐： Python的Flask开发框架简单上手笔记

thinkphp5上传图片及生成缩略图公共方法(分享)
直接上代码，可以写在公共文件common和继承的基础类中，方便调用 ?
PHP服务端环境搭建的图文教程(分享)
1、php服务端环境搭建 1.php 服务端环境安装套件 xampp(apach+mysql+php解释器) f:\mydoc文件(重要)\dl_学习\download重要资源\apache
PHPstorm快捷键(分享)
如下所示： Eclipse快捷键 Ctrl+1 快速修复 Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加)
php写app接口并返回json数据的实例(分享)
第一步：conn.PHP文件，用于连接数据库并定义接口格式，代码如下： php" id="highlighter_808731">
Linux下C语言的几道经典面试题小结(分享)
本篇文章整理了几道Linux下C语言的经典面试题，相信对大家更好的理解Linux下的C语言会有很大的帮助，欢迎大家探讨指正。 1、如果在Linux下使用GCC编译器执行下列程序，输出结果是什么？
快速解决boost库链接出错的问题(分享)
安装完最新的Boost库官方说明中有一句话： Finally, $ ./b2 install will leave Boost binaries in the lib/ subdirecto
Spring集成MyBatis完整实例(分享)
为了梳理前面学习的《spring整合mybatis（maven+mysql）一》与《spring整合mybatis（maven+mysql）二》中的内容，准备做一个完整的示例完成一个简单的图书管理功
网站页面价值的控制技巧(分享)
网站内容质量仅仅是页面综合得分里面的一项.不管算法如何改变调整,搜索引擎都不会丢弃网站页面的综合得分。一般情况下我们把页面的综合得分为8个点： 1、标题的设置 (标题的设置要有独特性)
Android基础之使用Fragment适应不同屏幕和分辨率(分享)
最近事情很忙，一个新项目赶着出来，但是很多功能都要重新做，一直在编写代码、debug。今天因为一个新程序要使用fragment来做，虽然以前也使用过fragment，不过没有仔细研究，今天顺道写篇文
Android资源命名规范(分享)
Android资源命名规范最近几个月，大量涉及android资源的相关工作。对于复杂的应用而言，资源命名的规范很有必要。除了开发人员之外，UI设计人员（或者切图相关人员）也需要对资源使用的位置非常
基于Mybaits映射的一点心得(分享)
以前一直使用Hibernate，基本上没用过Mybatis，工作中需要做映射关系，简单的了解下Mybatis的映射。两者相差不多都支持一对一，一对多，多对多，本章简单介绍一对一的使用以及注意点。
浅谈java基本数据类型的范围(分享)
如下所示： ? 1
Android自定义View设定到FrameLayout布局中实现多组件显示的方法分享
如果想在自定义的View上面显示Button 等View组件需要完成如下任务　　1.在自定义View的类中覆盖父类的构造(注意是2个参数的) 复制代码代码如下: 　　publ
java实现表格tr拖动的实例(分享)
实现功能：实现表格tr拖动，并保存因为拖动改变的等级. jsp代码 ?
java之Timer和TimerTask简单demo(分享)
代码：测试类 java" id="highlighter_819000"> ?
基于红黑树插入操作原理及java实现方法(分享)
红黑树是一种二叉平衡查找树，每个结点上有一个存储位来表示结点的颜色，可以是red或black。红黑树具有以下性质： (1) 每个结点是红色或是黑色 (2) 根结点是黑色的 (3) 如果一个
dom4j操作xml的demo(分享)
废话不多说，直接上代码 ? 1
Python中最大最小赋值小技巧(分享)
码代码时，有时候需要根据比较大小分别赋值： ? 1
Git安装和使用图文教程(分享)
实际项目开发中，我们经常会用一些版本控制器来托管自己的代码，今天就来总结下Git的相关用法，废话不多说，直接开写。目的：通过Git管理github托管项目代码 1、下载安装Git 1、下载
一个漂亮的php验证码类(分享)
直接上代码: 复制代码代码如下: //验证码类 class ValidateCode { private $charset = 'abcdefghkmnprstuvwxyzABC

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python通过DOM和SAX方式解析XML的应用实例分享