- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python通过DOM和SAX方式解析XML的应用实例分享由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
XML.DOM 。
需求 有一个表,里面数据量比较大,每天一更新,其字段可以通过xml配置文件进行配置,即,可能每次建表的字段不一样.
上游跑时会根据配置从源文件中提取,到入库这一步需要根据配置进行建表.
解决 写了一个简单的xml,配置需要字段及类型 。
上游读取到对应的数据 。
入库这一步,先把原表删除,根据配置建新表 。
XML文件 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
<?
xml
version
=
"1.0"
encoding
=
"UTF-8"
?>
<!-- 表名 ,数据库名 可灵活配置插入哪个库哪个表 -->
<
table
name
=
"top_query"
db_name
=
"evaluting_sys"
>
<!-- 非业务主键,自增长,可配名,其他 INTEGER UNSIGNED AUTO_INCREMENT -->
<
primary_key
>
<
name
>id</
name
>
</
primary_key
>
<!-- 字段开始 -->
<
field
>
<
name
>query</
name
>
<
type
>varchar(200)</
type
>
<
is_index
>false</
is_index
>
<
description
>query</
description
>
</
field
>
<
field
>
<
name
>pv</
name
>
<
type
>integer</
type
>
<
is_index
>false</
is_index
>
<
description
>pv</
description
>
</
field
>
<
field
>
<
name
>avg_money</
name
>
<
type
>integer</
type
>
<
is_index
>false</
is_index
>
<
description
></
description
>
</
field
>
<!-- 字段配置结束 -->
</
table
>
|
处理脚本 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
|
#!/usr/bin/python
# -*- coding:utf-8 -*-
#author: wklken
#desc: use to read db xml config.
#-----------------------
#2012-02-18 created
#----------------------
import
sys,os
from
xml.dom
import
minidom, Node
def
read_dbconfig_xml(xml_file_path):
content
=
{}
root
=
minidom.parse(xml_file_path)
table
=
root.getElementsByTagName(
"table"
)[
0
]
#read dbname and table name.
table_name
=
table.getAttribute(
"name"
)
db_name
=
table.getAttribute(
"db_name"
)
if
len
(table_name) >
0
and
len
(db_name) >
0
:
db_sql
=
"create database if not exists `"
+
db_name
+
"`; use "
+
db_name
+
";"
table_drop_sql
=
"drop "
+
table_name
+
" if exists "
+
table_name
+
";"
content.update({
"db_sql"
: db_sql})
content.update({
"table_sql"
: table_drop_sql })
else
:
print
"Error:attribute is not define well! db_name="
+
db_name
+
" ;table_name="
+
table_name
sys.exit(
1
)
#print table_name, db_name
table_create_sql
=
"create table "
+
table_name
+
"("
#read primary cell
primary_key
=
table.getElementsByTagName(
"primary_key"
)[
0
]
primary_key_name
=
primary_key.getElementsByTagName(
"name"
)[
0
].childNodes[
0
].nodeValue
table_create_sql
+
=
primary_key_name
+
" INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,"
#print primary_key.toxml()
#read ordernary field
fields
=
table.getElementsByTagName(
"field"
)
f_index
=
0
for
field
in
fields:
f_index
+
=
1
name
=
field.getElementsByTagName(
"name"
)[
0
].childNodes[
0
].nodeValue
type
=
field.getElementsByTagName(
"type"
)[
0
].childNodes[
0
].nodeValue
table_create_sql
+
=
name
+
" "
+
type
if
f_index !
=
len
(fields):
table_create_sql
+
=
","
is_index
=
field.getElementsByTagName(
"is_index"
)[
0
].childNodes[
0
].nodeValue
table_create_sql
+
=
");"
content.update({
"table_create_sql"
: table_create_sql})
#character set latin1 collate latin1_danish_ci;
print
content
if
__name__
=
=
"__main__"
:
read_dbconfig_xml(sys.argv[
1
])
|
涉及方法 root = minidom.parse(xml_file_path) 获取dom对象 。
root.getElementsByTagName("table") 根据tag获取节点列表 。
table.getAttribute("name") 获取属性 。
primary_key.getElementsByTagName("name")[0].childNodes[0].nodeValue 获取子节点的值(id 得到id) 。
SAX 需求 读取xml数据文件,文件较大,需要实时处理插入到数据库 。
xml文档 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
<
PERSONS
>
<
person
>
<
id
>100000</
id
>
<
sex
>男</
sex
>
<
address
>北京,海淀区</
address
>
<
fansNum
>437</
fansNum
>
<
summary
>1989</
summary
>
<
wbNum
>333</
wbNum
>
<
gzNum
>242</
gzNum
>
<
blog
>null</
blog
>
<
edu
>大学</
edu
>
<
work
></
work
>
<
renZh
>1</
renZh
>
<
brithday
>2月14日</
brithday
>
</
person
>
</
PERSONS
>
|
处理 sax处理时并不会像dom一样可以以类似节点的维度进行读取,它只有 开始标签 内容 结束标签 之分 。
处理思想是:通过一个handler,对开始标签,内容,结束标签各有一个处理函数 。
代码及注解 person 处理类 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
from
xml.sax
import
handler,parseString
class
PersonHandler(handler.ContentHandler):
def
__init__(
self
, db_ops):
#db op obj
self
.db_ops
=
db_ops
#存储一个person的map
self
.person
=
{}
#当前的tag
self
.current_tag
=
""
#是否是tag之间的内容 ,目的拿到tag间内容,不受空白的干扰
self
.in_quote
=
0
#开始,清空map
def
startElement(
self
, name, attr):
#以person,清空map
if
name
=
=
"person"
:
self
.person
=
{}
#记录 状态
self
.current_tag
=
name
self
.in_quote
=
1
#结束,插入数据库
def
endElement(
self
, name):
#以person结尾 代表读取一个person的信息结束
if
name
=
=
"person"
:
#do something
in_fields
=
tuple
([ (
'"' + self.person.get(i,"") + '"'
)
for
i
in
fields ])
print
in_sql
%
in_fields
db_ops.insert( in_sql
%
(in_fields))
#处理
self
.in_quote
=
0
def
characters(
self
, content):
#若是在tag之间的内容,更新到map中
if
self
.in_quote:
self
.person.update({
self
.current_tag: content})
|
加上入库的完整代码 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
|
#!/usr/bin/python
# -*- coding:utf-8 -*-
#parse_person.py
#version : 0.1
#author : wukunliang@163.com
#desc : parse person.xml and out sql
import
sys,os
import
MySQLdb
reload
(sys)
sys.setdefaultencoding(
'utf-8'
)
in_sql
=
"insert into person(
id
,sex,address,fansNum,summary,wbNum,gzNum,blog,edu,work,renZh,brithday) values(
%
s,
%
s,
%
s,
%
s,
%
s,
%
s,
%
s,
%
s,
%
s,
%
s,
%
s,
%
s)"
fields
=
(
"id"
,
"sex"
,
"address"
,
"fansNum"
,
"summary"
,
"wbNum"
,
"gzNum"
,
"blog"
,
"edu"
,
"work"
,
"renZh"
,
"brithday"
)
#数据库方法
class
Db_Connect:
def
__init__(
self
, db_host, user, pwd, db_name, charset
=
"utf8"
, use_unicode
=
True
):
print
"init begin"
print
db_host, user, pwd, db_name, charset , use_unicode
self
.conn
=
MySQLdb.Connection(db_host, user, pwd, db_name, charset
=
charset , use_unicode
=
use_unicode)
print
"init end"
def
insert(
self
, sql):
try
:
n
=
self
.conn.cursor().execute(sql)
return
n
except
MySQLdb.Warning, e:
print
"Error: execute sql '"
,sql,
"' failed"
def
close(
self
):
self
.conn.close()
#person 处理类
from
xml.sax
import
handler,parseString
class
PersonHandler(handler.ContentHandler):
def
__init__(
self
, db_ops):
#db op obj
self
.db_ops
=
db_ops
#存储一个person的map
self
.person
=
{}
#当前的tag
self
.current_tag
=
""
#是否是tag之间的内容
self
.in_quote
=
0
#开始,清空map
def
startElement(
self
, name, attr):
#以person,清空map
if
name
=
=
"person"
:
self
.person
=
{}
#记录 状态
self
.current_tag
=
name
self
.in_quote
=
1
#结束,插入数据库
def
endElement(
self
, name):
#以person结尾 代表读取一个person的信息结束
if
name
=
=
"person"
:
#do something
in_fields
=
tuple
([ (
'"' + self.person.get(i,"") + '"'
)
for
i
in
fields ])
print
in_sql
%
in_fields
db_ops.insert( in_sql
%
(in_fields))
#处理
self
.in_quote
=
0
def
characters(
self
, content):
#若是在tag之间的内容,更新到map中
if
self
.in_quote:
self
.person.update({
self
.current_tag: content})
if
__name__
=
=
"__main__"
:
f
=
open
(
"./person.xml"
)
#如果源文件gbk 转码 若是utf-8,去掉decode.encode
db_ops
=
Db_Connect(
"127.0.0.1"
,
"root"
,
"root"
,
"test"
)
parseString(f.read().decode(
"gbk"
).encode(
"utf-8"
), PersonHandler(db_ops))
f.close()
db_ops.close()
|
平时拿python来分析数据,工具脚本还有hadoop streamming,但是用的面和深度实在欠缺 只能说道行还浅,需要多多实践 。
最后此篇关于Python通过DOM和SAX方式解析XML的应用实例分享的文章就讲到这里了,如果你想了解更多关于Python通过DOM和SAX方式解析XML的应用实例分享的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
直接上代码,可以写在公共文件common和继承的基础类中,方便调用 ?
1、php服务端环境搭建 1.php 服务端环境 安装套件 xampp(apach+mysql+php解释器) f:\mydoc文件(重要)\dl_学习\download重要资源\apache
如下所示: Eclipse快捷键 Ctrl+1 快速修复 Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加)
第一步:conn.PHP文件,用于连接数据库并定义接口格式,代码如下: php" id="highlighter_808731">
本篇文章整理了几道Linux下C语言的经典面试题,相信对大家更好的理解Linux下的C语言会有很大的帮助,欢迎大家探讨指正。 1、如果在Linux下使用GCC编译器执行下列程序,输出结果是什么?
安装完最新的Boost库 官方说明中有一句话: Finally, $ ./b2 install will leave Boost binaries in the lib/ subdirecto
为了梳理前面学习的《spring整合mybatis(maven+mysql)一》与《spring整合mybatis(maven+mysql)二》中的内容,准备做一个完整的示例完成一个简单的图书管理功
网站内容质量仅仅是页面综合得分里面的一项.不管算法如何改变调整,搜索引擎都不会丢弃网站页面的综合得分。 一般情况下我们把页面的综合得分为8个点: 1、标题的设置 (标题的设置要有独特性)
最近事情很忙,一个新项目赶着出来,但是很多功能都要重新做,一直在编写代码、debug。今天因为一个新程序要使用fragment来做,虽然以前也使用过fragment,不过没有仔细研究,今天顺道写篇文
Android资源命名规范 最近几个月,大量涉及android资源的相关工作。对于复杂的应用而言,资源命名的规范很有必要。除了开发人员之外,UI设计人员(或者切图相关人员)也需要对资源使用的位置非常
以前一直使用Hibernate,基本上没用过Mybatis,工作中需要做映射关系,简单的了解下Mybatis的映射。 两者相差不多都支持一对一,一对多,多对多,本章简单介绍一对一的使用以及注意点。
如下所示: ? 1
如果想在自定义的View上面显示Button 等View组件需要完成如下任务 1.在自定义View的类中覆盖父类的构造(注意是2个参数的) 复制代码 代码如下: publ
实现功能:实现表格tr拖动,并保存因为拖动改变的等级. jsp代码 ?
代码:测试类 java" id="highlighter_819000"> ?
红黑树是一种二叉平衡查找树,每个结点上有一个存储位来表示结点的颜色,可以是red或black。 红黑树具有以下性质: (1) 每个结点是红色或是黑色 (2) 根结点是黑色的 (3) 如果一个
废话不多说,直接上代码 ? 1
码代码时,有时候需要根据比较大小分别赋值: ? 1
实际项目开发中,我们经常会用一些版本控制器来托管自己的代码,今天就来总结下Git的相关用法,废话不多说,直接开写。 目的:通过Git管理github托管项目代码 1、下载安装Git 1、下载
直接上代码: 复制代码 代码如下: //验证码类 class ValidateCode { private $charset = 'abcdefghkmnprstuvwxyzABC
我是一名优秀的程序员,十分优秀!