Python如何对XML 解析-6ren

Python如何对XML 解析

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章Python如何对XML 解析由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

什么是 XML?

XML 指可扩展标记语言（eXtensible Markup Language），标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。你可以通过本站学习 XML 教程。

XML 被设计用来传输和存储数据.

XML 是一套定义语义标记的规则，这些标记将文档分成许多部件并对这些部件加以标识.

它也是元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言.

Python 对 XML 的解析。

常见的 XML 编程接口有 DOM 和 SAX，这两种接口处理 XML 文件的方式不同，当然使用场合也不同.

Python 有三种方法解析 XML，SAX，DOM，以及 ElementTree

1.SAX (simple API for XML ) 。

Python 标准库包含 SAX 解析器，SAX 用事件驱动模型，通过在解析 XML 的过程中触发一个个的事件并调用用户定义的回调函数来处理 XML 文件.

2.DOM(Document Object Model) 。

将 XML 数据在内存中解析成一个树，通过对树的操作来操作 XML.

本章节使用到的 XML 实例文件 movies.xml 内容如下:

 
    ? 
   
 
     
       
       
         < 
         collection 
         shelf 
         = 
         "New Arrivals" 
         > 
        
 
         < 
         movie 
         title 
         = 
         "Enemy Behind" 
         > 
        
 
            
         < 
         type 
         >War, Thriller</ 
         type 
         > 
        
 
            
         < 
         format 
         >DVD</ 
         format 
         > 
        
 
            
         < 
         year 
         >2003</ 
         year 
         > 
        
 
            
         < 
         rating 
         >PG</ 
         rating 
         > 
        
 
            
         < 
         stars 
         >10</ 
         stars 
         > 
        
 
            
         < 
         description 
         >Talk about a US-Japan war</ 
         description 
         > 
        
 
         </ 
         movie 
         > 
        
 
         < 
         movie 
         title 
         = 
         "Transformers" 
         > 
        
 
            
         < 
         type 
         >Anime, Science Fiction</ 
         type 
         > 
        
 
            
         < 
         format 
         >DVD</ 
         format 
         > 
        
 
            
         < 
         year 
         >1989</ 
         year 
         > 
        
 
            
         < 
         rating 
         >R</ 
         rating 
         > 
        
 
            
         < 
         stars 
         >8</ 
         stars 
         > 
        
 
            
         < 
         description 
         >A schientific fiction</ 
         description 
         > 
        
 
         </ 
         movie 
         > 
        
 
            
         < 
         movie 
         title 
         = 
         "Trigun" 
         > 
        
 
            
         < 
         type 
         >Anime, Action</ 
         type 
         > 
        
 
            
         < 
         format 
         >DVD</ 
         format 
         > 
        
 
            
         < 
         episodes 
         >4</ 
         episodes 
         > 
        
 
            
         < 
         rating 
         >PG</ 
         rating 
         > 
        
 
            
         < 
         stars 
         >10</ 
         stars 
         > 
        
 
            
         < 
         description 
         >Vash the Stampede!</ 
         description 
         > 
        
 
         </ 
         movie 
         > 
        
 
         < 
         movie 
         title 
         = 
         "Ishtar" 
         > 
        
 
            
         < 
         type 
         >Comedy</ 
         type 
         > 
        
 
            
         < 
         format 
         >VHS</ 
         format 
         > 
        
 
            
         < 
         rating 
         >PG</ 
         rating 
         > 
        
 
            
         < 
         stars 
         >2</ 
         stars 
         > 
        
 
            
         < 
         description 
         >Viewable boredom</ 
         description 
         > 
        
 
         </ 
         movie 
         > 
        
 
         </ 
         collection 
         > 
        
 
     
 
   

Python 使用 SAX 解析 xml 。

SAX 是一种基于事件驱动的API.

利用 SAX 解析 XML 文档牵涉到两个部分: 解析器和事件处理器.

解析器负责读取 XML 文档，并向事件处理器发送事件，如元素开始跟元素结束事件.

而事件处理器则负责对事件作出响应，对传递的 XML 数据进行处理.

1、对大型文件进行处理；
2、只需要文件的部分内容，或者只需从文件中得到特定信息。
3、想建立自己的对象模型的时候。

在 Python 中使用 sax 方式处理 xml 要先引入 xml.sax 中的 parse 函数，还有 xml.sax.handler 中的 ContentHandler.

ContentHandler 类方法介绍。

characters(content) 方法。

调用时机:

从行开始，遇到标签之前，存在字符，content 的值为这些字符串.

从一个标签，遇到下一个标签之前，存在字符，content 的值为这些字符串.

从一个标签，遇到行结束符之前，存在字符，content 的值为这些字符串.

标签可以是开始标签，也可以是结束标签.

startDocument() 方法。

文档启动的时候调用.

endDocument() 方法。

解析器到达文档结尾时调用.

startElement(name, attrs) 方法。

遇到XML开始标签时调用，name 是标签的名字，attrs 是标签的属性值字典.

endElement(name) 方法。

遇到XML结束标签时调用.

make_parser 方法。

以下方法创建一个新的解析器对象并返回.

 
    ? 
   
         xml.sax.make_parser( [parser_list] )

参数说明

parser_list - 可选参数，解析器列表

parser 方法。

以下方法创建一个 SAX 解析器并解析xml文档:

 
    ? 
   
         xml.sax.parse( xmlfile, contenthandler[, errorhandler])

参数说明

xmlfile - xml文件名
contenthandler - 必须是一个 ContentHandler 的对象
errorhandler - 如果指定该参数，errorhandler 必须是一个 SAX ErrorHandler 对象

parseString 方法。

parseString 方法创建一个 XML 解析器并解析 xml 字符串:

 
    ? 
   
         xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

参数说明

xmlstring - xml字符串
contenthandler - 必须是一个 ContentHandler 的对象
errorhandler - 如果指定该参数，errorhandler 必须是一个 SAX ErrorHandler对象

Python 解析XML实例。

 
    ? 
   
         #!/usr/bin/python3 
        
         import 
         xml.sax 
        
         class 
         MovieHandler( xml.sax.ContentHandler ): 
        
         def 
         __init__( 
         self 
         ): 
        
         self 
         .CurrentData  
         = 
         "" 
        
         self 
         . 
         type 
         = 
         "" 
        
         self 
         . 
         format 
         = 
         "" 
        
         self 
         .year  
         = 
         "" 
        
         self 
         .rating  
         = 
         "" 
        
         self 
         .stars  
         = 
         "" 
        
         self 
         .description  
         = 
         "" 
        
         # 元素开始调用 
        
         def 
         startElement( 
         self 
         , tag, attributes): 
        
         self 
         .CurrentData  
         = 
         tag 
        
         if 
         tag  
         = 
         = 
         "movie" 
         : 
        
         print 
         ( 
         "*****Movie*****" 
         ) 
        
         title  
         = 
         attributes[ 
         "title" 
         ] 
        
         print 
         ( 
         "Title:" 
         , title) 
        
         # 元素结束调用 
        
         def 
         endElement( 
         self 
         , tag): 
        
         if 
         self 
         .CurrentData  
         = 
         = 
         "type" 
         : 
        
         print 
         ( 
         "Type:" 
         ,  
         self 
         . 
         type 
         ) 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "format" 
         : 
        
         print 
         ( 
         "Format:" 
         ,  
         self 
         . 
         format 
         ) 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "year" 
         : 
        
         print 
         ( 
         "Year:" 
         ,  
         self 
         .year) 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "rating" 
         : 
        
         print 
         ( 
         "Rating:" 
         ,  
         self 
         .rating) 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "stars" 
         : 
        
         print 
         ( 
         "Stars:" 
         ,  
         self 
         .stars) 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "description" 
         : 
        
         print 
         ( 
         "Description:" 
         ,  
         self 
         .description) 
        
         self 
         .CurrentData  
         = 
         "" 
        
         # 读取字符时调用 
        
         def 
         characters( 
         self 
         , content): 
        
         if 
         self 
         .CurrentData  
         = 
         = 
         "type" 
         : 
        
         self 
         . 
         type 
         = 
         content 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "format" 
         : 
        
         self 
         . 
         format 
         = 
         content 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "year" 
         : 
        
         self 
         .year  
         = 
         content 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "rating" 
         : 
        
         self 
         .rating  
         = 
         content 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "stars" 
         : 
        
         self 
         .stars  
         = 
         content 
        
         elif 
         self 
         .CurrentData  
         = 
         = 
         "description" 
         : 
        
         self 
         .description  
         = 
         content 
        
         if 
         ( __name__  
         = 
         = 
         "__main__" 
         ): 
        
         # 创建一个 XMLReader 
        
         parser  
         = 
         xml.sax.make_parser() 
        
         # 关闭命名空间 
        
         parser.setFeature(xml.sax.handler.feature_namespaces,  
         0 
         ) 
        
         # 重写 ContextHandler 
        
         Handler  
         = 
         MovieHandler() 
        
         parser.setContentHandler( Handler ) 
        
         parser.parse( 
         "movies.xml" 
         )

以上代码执行结果如下:

*****Movie***** Title: Enemy Behind Type: War, Thriller Format: DVD Year: 2003 Rating: PG Stars: 10 Description: Talk about a US-Japan war *****Movie***** Title: Transformers Type: Anime, Science Fiction Format: DVD Year: 1989 Rating: R Stars: 8 Description: A schientific fiction *****Movie***** Title: Trigun Type: Anime, Action Format: DVD Rating: PG Stars: 10 Description: Vash the Stampede! *****Movie***** Title: Ishtar Type: Comedy Format: VHS Rating: PG Stars: 2 Description: Viewable boredom 。

完整的 SAX API 文档请查阅Python SAX APIs 。

使用xml.dom解析xml 。

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口.

一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件.

python中用xml.dom.minidom来解析xml文件，实例如下:

 
    ? 
   
         #!/usr/bin/python3 
        
         from 
         xml.dom.minidom  
         import 
         parse 
        
         import 
         xml.dom.minidom 
        
         # 使用minidom解析器打开 XML 文档 
        
         DOMTree  
         = 
         xml.dom.minidom.parse( 
         "movies.xml" 
         ) 
        
         collection  
         = 
         DOMTree.documentElement 
        
         if 
         collection.hasAttribute( 
         "shelf" 
         ): 
        
         print 
         ( 
         "Root element : %s" 
         % 
         collection.getAttribute( 
         "shelf" 
         )) 
        
         # 在集合中获取所有电影 
        
         movies  
         = 
         collection.getElementsByTagName( 
         "movie" 
         ) 
        
         # 打印每部电影的详细信息 
        
         for 
         movie  
         in 
         movies: 
        
         print 
         ( 
         "*****Movie*****" 
         ) 
        
         if 
         movie.hasAttribute( 
         "title" 
         ): 
        
         print 
         ( 
         "Title: %s" 
         % 
         movie.getAttribute( 
         "title" 
         )) 
        
         type 
         = 
         movie.getElementsByTagName( 
         'type' 
         )[ 
         0 
         ] 
        
         print 
         ( 
         "Type: %s" 
         % 
         type 
         .childNodes[ 
         0 
         ].data) 
        
         format 
         = 
         movie.getElementsByTagName( 
         'format' 
         )[ 
         0 
         ] 
        
         print 
         ( 
         "Format: %s" 
         % 
         format 
         .childNodes[ 
         0 
         ].data) 
        
         rating  
         = 
         movie.getElementsByTagName( 
         'rating' 
         )[ 
         0 
         ] 
        
         print 
         ( 
         "Rating: %s" 
         % 
         rating.childNodes[ 
         0 
         ].data) 
        
         description  
         = 
         movie.getElementsByTagName( 
         'description' 
         )[ 
         0 
         ] 
        
         print 
         ( 
         "Description: %s" 
         % 
         description.childNodes[ 
         0 
         ].data)

以上程序执行结果如下:

Root element : New Arrivals *****Movie***** Title: Enemy Behind Type: War, Thriller Format: DVD Rating: PG Description: Talk about a US-Japan war *****Movie***** Title: Transformers Type: Anime, Science Fiction Format: DVD Rating: R Description: A schientific fiction *****Movie***** Title: Trigun Type: Anime, Action Format: DVD Rating: PG Description: Vash the Stampede! *****Movie***** Title: Ishtar Type: Comedy Format: VHS Rating: PG Description: Viewable boredom 。

完整的 DOM API 文档请查阅Python DOM APIs.

以上就是Python如何对XML 解析的详细内容，更多关于Python对XML 解析的资料请关注我其它相关文章！。

原文链接：https://www.runoob.com/python3/python3-xml-processing.html 。

最后此篇关于Python如何对XML 解析的文章就讲到这里了,如果你想了解更多关于Python如何对XML 解析的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：在keras里实现自定义上采样层

文章推荐： php实现的任意进制互转类分享

文章推荐： Apache服务器下防止图片盗链的办法

文章推荐： keras 自定义loss层+接受输入实例

javascript - 控制台错误 - 解析 AJAX JSON 解析
我一直在使用 AJAX 从我正在创建的网络服务中解析 JSON 数组时遇到问题。我的前端是一个简单的 ajax 和 jquery 组合，用于显示从我正在创建的网络服务返回的结果。尽管知道我的数据库查
xml - Json 解析 vs xml 解析？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
android - java.lang.NoClassDefFoundError : com. 解析。解析
我在尝试运行 Android 应用程序时遇到问题并收到以下错误 java.lang.NoClassDefFoundError: com.parse.Parse 当我尝试运行该应用时。最佳答案在这
python - 解析 HTML 内容时防止 etree 解析 HTML 实体
有什么办法可以防止etree在解析HTML内容时解析HTML实体吗？ html = etree.HTML('&') html.find('.//body').text 这给了我 '&' 但我想
javascript - 使用 JSON 解析/解析 js 对象时，返回方法中的函数范围会丢失
我有一个有点疯狂的例子，但对于那些 JavaScript 函数作用域专家来说，它看起来是一个很好的练习: (function (global) { // our module number one
java - 使用 Java 解析 HTML 数据(DOM 解析)
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 8 年前。 Improve th
php - 在服务器上用 PHP 解析 HTML 还是在最终用户端用 JavaScript 解析 HTML 会更好？
我需要编写一个脚本来获取链接并解析链接页面的 HTML 以提取标题和其他一些数据，例如可能是简短的描述，就像您链接到 Facebook 上的内容一样。当用户向站点添加链接时将调用它，因此在客户端启动
node.js - 为什么 npm 包从/AppData 解析，而不是从 local/node_modules 解析？
在 VS Code 中本地开发时，包解析为 C:/Users//AppData/Local/Microsoft/TypeScript/3.5/node_modules/@types//index而不是
php - 解析 json 错误 : SyntaxError: JSON. 解析:JSON 数据的第 1 行第 2 列出现意外字符
我在将 json 从 php 解析为 javascript 时遇到问题这是我的示例代码: //function MethodAjax = function (wsFile, param) {
php - 解析 json 错误 : SyntaxError: JSON. 解析:JSON 数据的第 1 行第 2 列出现意外字符
我在将 json 从 php 解析为 javascript 时遇到问题这是我的示例代码: //function MethodAjax = function (wsFile, param) {
解析，在哪里可以了解
我被赋予了将一种语言“翻译”成另一种语言的工作。对于使用正则表达式的简单逐行方法来说，源代码过于灵活(复杂)。我在哪里可以了解更多关于词法分析和解析器的信息？最佳答案如果你想对这个主题产生“情绪化
正则表达式 {} 解析
您好，我在解析此文本时遇到问题 { { { {[system1];1;1;0.612509325}; {[system2];1;
JavaScript 解析？
我正在为 adobe after effects 在 extendscript 中编写一些代码，最终变成了 javascript。我有一个数组，我想只搜索单词“assemble”并返回整个 jc3_
JavaScript 解析
我有这段代码: $(document).ready(function() { // }); 问题:FB_RequireFeatures block 外部的代码先于其内部的代码执行。因此 who
解析.netcore项目中IStartupFilter使用教程
背景： netcore项目中有些服务是在通过中间件来通信的，比如orleans组件。它里面服务和客户端会指定网关和端口，我们只需要开放客户端给外界，服务端关闭端口。相当于去掉host，这样省掉了些
解析:继承ViewGroup后的子类如何重写onMeasure方法
1.首先贴上我试验成功的代码复制代码代码如下: protected void onMeasure(int widthMeasureSpec, int heightMeasureSpec)
Python如何对XML 解析
什么是 XML？ XML 指可扩展标记语言（eXtensible Markup Language），标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。你可以通过本站学习 X
解析:php调用MsSQL存储过程使用内置RETVAL获取过程中的return值
【PHP代码】复制代码代码如下: $stmt = mssql_init('P__Global_Test', $conn) or die("initialize sto
解析:清除SQL被注入恶意病毒代码的语句
在SQL查询分析器执行以下代码就可以了。复制代码代码如下: declare @t varchar(255),@c varchar(255) declare table_cursor curs
【JavaScript】前端算法题40道题+解析
前言最近练习了一些前端算法题，现在做个总结，以下题目都是个人写法，并不是标准答案，如有错误欢迎指出，有对某道题有新的想法的友友也可以在评论区发表想法，互相学习🤭 题目题目一: 二维数组中的

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python如何对XML 解析