python - 使用 minidom 从 XML 节点中提取文本-6ren

python - 使用 minidom 从 XML 节点中提取文本

转载作者：数据小太阳更新时间：2023-10-29 02:31:30

25

4

我浏览了几篇文章，但没有找到任何解决我问题的答案。

示例 XML =

<TextWithNodes>
<Node id="0"/>TEXT1<Node id="19"/>TEXT2 <Node id="20"/>TEXT3<Node id="212"/>
</TextWithNodes>

所以我知道通常如果我将 TextWithNodes 提取为 NodeList 我会做类似的事情

nodeList = TextWithNodes[0].getElementsByTagName('Node')
for a in nodeList:
    node = a.nodeValue
    print node

我得到的只是无。我读到你必须写 a.childNodes.nodeValue 但节点列表中没有子节点，因为它看起来像所有 Node ID 都是结束标签？如果我使用 a.childNodes，我会得到 []。

当我得到 a 的节点类型时，它是类型 1 和 TEXT_NODE = 3。我不确定这是否有用。

我想提取TEXT1、TEXT2等

最佳答案

来自文档的lxml解决方案:

from lxml import etree
from StringIO import StringIO

xml = etree.parse(StringIO('''<TextWithNodes>
<Node id="0"/>TEXT1<Node id="19"/>TEXT2 <Node id="20"/>TEXT3<Node id="212"/></TextWithNodes>'''))

xml.xpath("//text()")
Out[43]: ['\n', 'TEXT1', 'TEXT2 ', 'TEXT3']

您还可以提取特定节点的文本:

xml.find(".//Node[@id='19']").text

这里的问题是 XML 中的文本不属于任何节点。

关于python - 使用 minidom 从 XML 节点中提取文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11122736/

25

4

0

文章推荐： xml - Word 2007 xml 文档的基本部分

文章推荐： go - 编码为 JSON 时将类型 int 转换为 const 名称的字符串

文章推荐： java - 重新排序 XML 标签

python - 读取页面并在 Python 中使用 minidom.parse 或 minidom.parseString 解析它？
我有以下任一代码: import urllib from xml.dom import minidom res = urllib.urlopen('https://www.google.com/web
Python minidom 获取子节点值时遇到问题
我已经阅读了这里有关此问题的几个答案，但仍然无法解决它。基本上，我想打印子节点的nodeValue。这是 xml: true 2 500 10000
Python 列表索引超出范围 - minidom
快速提问，当您看到错误“builtins.IndexError: list index out of range”时，正确的解决方案是什么？这是引用另一个 thread 我已经开始了，但我不想让它出
Python minidom 检查元素是否存在
我有一个具有这种结构的 xml 文件: EB 23242 EB 我想检查visit标签中是否存在每一列，如果不存在我想返回Non
Python MiniDom 无法正确删除元素
我正在将一段 JS 代码转换为 Python，并且我一直在使用 mini DOM，但某些事情无法正常工作。他们在 JavaScript 中运行时正在查找。我进行转换是因为我想要一致的更改/顺序(即添加
python minidom - 从同名的父节点获取数据
我有一个具有以下结构的 xml 文件: ... ... ...
python - Minidom:获取选中节点的所有属性？
我递归地遍历 XML 中的所有节点: def verify_elements_children(root): if root.childNodes: for node in r
python xml 解析 (minidom)
我需要从此 XML 文件读取数据。我不知道如何从这个 XML 文件中读取数据 aaaaa、bbbbb、ccccc、ddddd、eeeee、fffff 和 ggggg。
python xml minidom 获取包含子节点和文本的子节点的全部内容
我正在寻找使用 xml minidom 提取 xml 文件的内容，示例如下: text1 text2 text3 以下代码仅提取“
Python Minidom 修改/追加内容文件
8 小时以来，我现在尝试解析 XML 并将 5 行文本添加到 xml 中。我真的没有取得任何进展，writexml、toxml 和 saveXML 似乎都无法在 minidom 库中工作我们要解析
python - 使用 minidom 删除节点
我有以下功能: def removeNodes(mydom, name): nodeList = mydom.getElementsByTagName('option') # in p
python - Python minidom 解析器中的标签不匹配错误
我正在使用Python的minidom解析文档，例如: This tag contains a "" string ""字符串导致 xml.parsers.expat.ExpatError:
Python XML Minidom 通过子节点中的标签获取元素
我目前正在使用 IRC Bot，并希望从如下所示的 XML 文件中检索配置: HOST1 6667 CHANNAME1 CHANNAME2
python - 使用 minidom 获取节点名称
是否可以使用 minidom 获取节点的名称？例如我有一个节点: 我想做的是存储值 heading 以便我可以将它用作字典中的键。我能得到的最接近的是这样的: [] 我确定我在这里忽略了一些非常
Python Minidom - 如何遍历属性，并获取它们的名称和值
我想遍历一个dom节点的所有属性并获取名称和值我试过这样的事情(文档对此不是很详细所以我猜了一点): for attr in element.attributes: attrName = a
python - 查找具有 minidom 属性的元素
给定如何在不遍历每个标签并检查属性的情况下立即获取名称为“frame.len”的字段？最佳答案我认为你做不到。来自父element , 你需要 for subelement i
python - 使用 minidom 修改时保留属性顺序
在使用 minidom 处理 XML 时，有没有一种方法可以保留属性的原始顺序？假设我有:当我用 minidom 修改它时，属性按字母顺序重新排列为蓝色、绿色和红色。我想保留原始订单。我正在通过遍
Python:使用 minidom 搜索具有特定文本的节点
我目前面临的 XML 看起来像这样: 345754 这包含在层次结构中。我已经解析了 xml，并希望通过搜索“345754”找到 ID 节点。最佳答案 vartec 的回答需要更正(抱歉，我不确定我
python - Minidom:如何检查我是否有预期的根和 child ？
我有这个 xml 结构，我如何检查 minidom，root 是 root，并且子元素始终是 followin 元素？ ch
python - minidom appendchild/insertBefore
我正在使用 Python 和 minidom 将数据插入现有的 XML 文件中。当我这样做时，我得到了正确的 XML 代码，但它看起来不像我想要的那样。这是我的 xml 文件开头的示例。

首页

博学

6Ren·AI

商城

python - 使用 minidom 从 XML 节点中提取文本