gpt4 book ai didi

Python利用ElementTree模块处理XML的方法详解

转载 作者:qq735679552 更新时间:2022-09-28 22:32:09 26 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python利用ElementTree模块处理XML的方法详解由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

前言 。

最近因为工作的需要,在使用 Python 来发送 SOAP 请求以测试 Web Service 的性能,由于 SOAP 是基于 XML 的,故免不了需要使用 python 来处理 XML 数据。在对比了几种方案后,最后选定使用 xml.etree.ElementTree 模块来实现.

这篇文章记录了使用 xml.etree.ElementTree 模块常用的几个操作,也算是总结一下,免得以后忘记了。分享出来也方法需要的朋友们参考学习,下面话不多说了,来一起看看详细的介绍吧.

概述 。

对比其他 Python 处理 XML 的方案,xml.etree.ElementTree 模块(下文我们以 ET 来表示)相对来说比较简单,接口也较友好.

官方文档 里面对 ET 模块进行了较为详细的描述,总的来说,ET 模块可以归纳为三个部分:ElementTree类,Element类以及一些操作 XML 的函数.

XML 可以看成是一种树状结构,ET 使用ElementTree类来表示整个 XML 文档,使用Element类来表示 XML 的一个结点。对整 XML 文档的操作一般是对ElementTree对象进行,而对 XML 结点的操作一般是对Element对象进行.

解析 XML 文件 。

ET 模块支持从一个 XML 文件构造ElementTree对象,例如我们的 XML 文件example.xml内容如下(下文会继续使用这个 XML 文档):

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<? xml version = "1.0" encoding = "utf-8" ?>
< data >
  < country name = "Liechtenstein" >
   < rank >1</ rank >
   < year >2008</ year >
   < gdppc >141100</ gdppc >
   < neighbor name = "Austria" direction = "E" />
   < neighbor name = "Switzerland" direction = "W" />
  </ country >
  < country name = "Singapore" >
   < rank >4</ rank >
   < year >2011</ year >
   < gdppc >59900</ gdppc >
   < neighbor name = "Malaysia" direction = "N" />
  </ country >
</ data >

可以使用 ET 模块的parse()函数来从指定的 XML 文件构造一个ElementTree对象:

?
1
2
3
4
5
6
7
8
import xml.etree.ElementTree as ET
 
# 获取 XML 文档对象 ElementTree
tree = ET.parse( 'example.xml' )
# 获取 XML 文档对象的根结点 Element
root = tree.getroot()
# 打印根结点的名称
print root.tag

从 XML 文件构造好ElementTree对象后,还可以获取其结点,或者再继续对结点进行进一步的操作.

解析 XML 字符串 。

ET 模块的fromstring()函数提供从 XML 字符串构造一个Element对象的功能.

?
1
2
3
4
xml_str = ET.tostring(root)
print xml_str
root = ET.fromstring(xml_str)
print root.tag

接着上面的代码,我们使用 ET 模块的tostring()函数来将上面我们构造的root对象转化为字符串,然后使用fromstring()函数重新构造一个Element对象,并赋值给root变量,这时root代表整个 XML 文档的根结点.

构造 XML 。

如果我们需要构造 XML 文档,可以使用 ET 模块的 Element类以及SubElement()函数.

可以使用Element类来生成一个Element对象作为根结点,然后使用ET.SubElement()函数生成子结点.

?
1
2
3
4
5
6
7
8
9
a = ET.Element( 'a' )
b = ET.SubElement(a, 'b' )
b.text = 'leehao.me'
c = ET.SubElement(a, 'c' )
c.attrib[ 'greeting' ] = 'hello'
d = ET.SubElement(a, 'd' )
d.text = 'www.leehao.me'
xml_str = ET.tostring(a, encoding = 'UTF-8' )
print xml_str

输出:

?
1
2
<?xml version='1.0' encoding='UTF-8'?>
<a><b>leehao.me</b><c greeting="hello" /><d>www.leehao.me</d></a>

如果需要输出到文件中,可以继续使用ElementTree.write()方法来处理:

?
1
2
3
# 先构造一个 ElementTree 以便使用其 write 方法
tree = ET.ElementTree(a)
tree.write( 'a.xml' , encoding = 'UTF-8' )

执行后,便会生成一个 XML 文件a.xml

?
1
2
<? xml version = '1.0' encoding = 'UTF-8' ?>
< a >< b >leehao.me</ b >< c greeting = "hello" />< d >www.leehao.me</ d ></ a >

XML 结点的查找与更新 。

1. 查找 XML 结点 。

Element类提供了Element.iter()方法来查找指定的结点。Element.iter()会递归查找所有的子结点,以便查找到所有符合条件的结点.

?
1
2
3
4
5
6
7
# 获取 XML 文档对象 ElementTree
tree = ET.parse( 'example.xml' )
# 获取 XML 文档对象的根结点 Element
root = tree.getroot()
# 递归查找所有的 neighbor 子结点
for neighbor in root. iter ( 'neighbor' ):
  print neighbor.attrib

输出:

?
1
2
3
{ 'direction' : 'E' , 'name' : 'Austria' }
{ 'direction' : 'W' , 'name' : 'Switzerland' }
{ 'direction' : 'N' , 'name' : 'Malaysia' }

如果使用Element.findall()或者Element.find()方法,则只会从结点的直接子结点中查找,并不会递归查找.

?
1
2
3
4
for country in root.findall( 'country' ):
  rank = country.find( 'rank' ).text
  name = country.get( 'name' )
  print name, rank

输出:

?
1
2
Liechtenstein 1
Singapore 4

2. 更新结点 。

如果需要更新结点的文本,可以通过直接修改Element.text来实现。如果需要更新结点的属性,可以通过直接修改Element.attrib来实现.

对结点进行更新后,可以使用ElementTree.write()方法将更新后的 XML 文档写入文件中.

?
1
2
3
4
5
6
7
8
9
# 获取 XML 文档对象 ElementTree
tree = ET.parse( 'example.xml' )
# 获取 XML 文档对象的根结点 Element
root = tree.getroot()
for rank in root. iter ( 'rank' ):
  new_rank = int (rank.text) + 1
  rank.text = str (new_rank)
  rank.attrib[ 'updated' ] = 'yes'
tree.write( 'output.xml' , encoding = 'UTF-8' )

新生成的output.xml文件以下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<?xml version = '1.0' encoding = 'UTF-8' ?>
<data>
  <country name = "Liechtenstein" >
   <rank updated = "yes" > 2 < / rank>
   <year> 2008 < / year>
   <gdppc> 141100 < / gdppc>
   <neighbor direction = "E" name = "Austria" / >
   <neighbor direction = "W" name = "Switzerland" / >
  < / country>
  <country name = "Singapore" >
   <rank updated = "yes" > 5 < / rank>
   <year> 2011 < / year>
   <gdppc> 59900 < / gdppc>
   <neighbor direction = "N" name = "Malaysia" / >
  < / country>
< / data>

对比example.xml文件,可以看到output.xml文件已更新.

总结 。

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对我的支持.

参考资料 。

  • https://docs.python.org/2/library/xml.html#xml-vulnerabilities
  • https://stackoverflow.com/questions/1912434/how-do-i-parse-xml-in-python

原文链接:http://blog.csdn.net/lihao21/article/details/72891932 。

最后此篇关于Python利用ElementTree模块处理XML的方法详解的文章就讲到这里了,如果你想了解更多关于Python利用ElementTree模块处理XML的方法详解的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com