python - XML 解析忽略文本-6ren

python - XML 解析忽略文本

转载作者：行者123 更新时间：2023-12-01 08:26:37

26

4

我遇到了以下问题，试图从 python 中的一堆 xml 文件中获取信息。我没有做任何特别的事情，例如:

import xml.etree.ElementTree as ET

root = ET.parse(r'C:\Documents\XMLfolder\file.xml').getroot()
info = root.find('foo').find('bar').find('info').text

这适用于我拥有的大部分信息 - 但 xml 的一部分采用以下格式:

<bar>
<info id="1"><label>1</label>SampleTextHere</info>
</bar>

上面的代码给出 None - 我可以找到info元素和 label不过，元素。我只是找不到文字。如果我编辑文件以删除 <label> 1 </label>然后上面的代码返回我需要的文本。

是否有一些我不知道的非常基本的东西可以让我访问文本而无需修改所有 xml 文件以删除标签？ (这是相关的)。

谢谢!

最佳答案

来自[Python 3]: xml.etree.ElementTree.Element.text (强调是我的):

These attributes can be used to hold additional data associated with the element. Their values are usually strings but may be any application-specific object. If the element is created from an XML file, the text attribute holds either the text between the element’s start tag and its first child or end tag, or None, and the tail attribute holds either the text between the element’s end tag and the next tag, or None.

...

To collect the inner text of an element, see itertext(), for example "".join(element.itertext()).

我根据您的规范创建了 3 个文件:

file0.xml:

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <foo>
    <bar>
      <info id="1">SampleTextHere 0</info>
    </bar>
  </foo>
</root>

file1.xml:

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <foo>
    <bar>
      <info id="1"><label>LabelText</label>SampleTextHere 1</info>
    </bar>
  </foo>
</root>

file2.xml:

<?xml version="1.0" encoding="UTF-8"?>
<root>
  <foo>
    <bar>
      <info id="1"></info>
    </bar>
  </foo>
</root>

以及一些示例代码。

code.py:

#!/usr/bin/env python3

import sys
import xml.etree.ElementTree as ET


def main():
    file_names = [
        "file0.xml",
        "file1.xml",
        "file2.xml",
    ]

    for file_name in file_names:
        root = ET.parse(file_name).getroot()
        info_node = root.find("foo").find("bar").find("info")
        text = info_node.text
        tail = info_node.tail
        iter_text = "".join(info_node.itertext())
        info_node_text = text or ""
        if not info_node_text:
            for info_node_text in info_node.itertext():
                pass
        print("\n{:s}\n      Text (for debugging purposes): [{:}]\n      Tail (for debugging purposes): [{:}]\n      Iter text (for debugging purposes): [{:s}]\n  Value: [{:s}]".format(
            file_name, text, tail, iter_text, info_node_text))


if __name__ == "__main__":
    print("Python {:s} on {:s}\n".format(sys.version, sys.platform))
    main()

算法很简单:如果节点没有设置 text 属性，则迭代其 itertext() 并选择最后一个值，作为 >标签(或任何其他)子节点位于文本之前。

输出:

(py_064_03.06.08_test0) e:\Work\Dev\StackOverflow\q054197111>"e:\Work\Dev\VEnvs\py_064_03.06.08_test0\Scripts\python.exe" code.py
Python 3.6.8 (tags/v3.6.8:3c6b436a57, Dec 24 2018, 00:16:47) [MSC v.1916 64 bit (AMD64)] on win32


file0.xml
      Text (for debugging purposes): [SampleTextHere 0]
      Tail (for debugging purposes): [
    ]
      Iter text (for debugging purposes): [SampleTextHere 0]
  Value: [SampleTextHere 0]

file1.xml
      Text (for debugging purposes): [None]
      Tail (for debugging purposes): [
    ]
      Iter text (for debugging purposes): [LabelTextSampleTextHere 1]
  Value: [SampleTextHere 1]

file2.xml
      Text (for debugging purposes): [None]
      Tail (for debugging purposes): [
    ]
      Iter text (for debugging purposes): []
  Value: []

关于python - XML 解析忽略文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54197111/

26

4

0

文章推荐： jquery - 需要在一系列元素中切换一个div

文章推荐： jquery - 如何使用 JQuery 在列表中间添加列表项

xml - 如何在没有源 xml 文件根节点的情况下将一个 xml 文件包含在另一个 xml 中？
正如标题中所问，我有两个如下结构的 XML 文件 A.xml //here I want to include B.xml
c# - 如何将等 xml 标签格式更改为
我有一个 xml 文件。根据我的要求，我需要更新空标签，例如我需要更改 to .是否可以像那样更改标签.. 谢谢... 最佳答案 var xmlString=" "; var properStri
xml - Golang : get inner xml from xml with xml.解码
我有这样简单的 XML: Song Playing 09:41:18 Frederic Delius Violin Son
xml - XML 阅读器是否应该忽略 XML 文件中的连续空格？
在我的工作中，我们有自己的 XML 类来构建 DOM，但我不确定应该如何处理连续的空格？例如 Hello World 当它被读入 DOM 时，文本节点应该包含 Hello 和 World
xml - 比较来自不同 XML 文件的元素值并附加到第一个 XML
我有以下 2 个 xml 文件，我必须通过比较 wd:Task_Name_ID 和 TaskID 的 XML 文件 2。例如，Main XML File-1 wd:Task_Name_ID 具有以下
xml - 使 XML 构建器从字符串中插入 XML
我在 Rails 应用程序中有一个 XML View ，需要从另一个文件插入 XML 以进行测试。我想说“构建器，只需盲目地填充这个字符串，因为它已经是 xml”，但我在文档中看不到这样做的任何内容
xml - XML 数据和 XML 元数据之间有什么区别？
我正在重建一些 XML 提要，因此我正在研究何时使用元素以及何时使用带有 XML 的属性。一些网站说“数据在元素中，元数据在属性中。” 那么，两者有什么区别呢？让我们以 W3Schools 为例:
xml - 文档中的多个 XML 声明是否为格式正确的 XML？
在同一个文档中有两个 XML 声明是否是格式正确的 XML？ hello 我相信不是，但是我找不到支持我的消息来源。来自 Extensible Markup Language
xml - 在 XML 中包装任意 XML
我需要在包装器 XML 文档中嵌入任意(语法上有效的)XML 文档。嵌入式文档被视为纯文本，在解析包装文档时不需要可解析。我知道“CDATA trick”，但如果内部 XML 文档本身包含 CDAT
xml - XML 解析器和 XML 处理器是否相同？
XML 解析器和 XML 处理器是两个不同的东西吗？他们是两个不同的工作吗？最佳答案 XML 解析器和 XML 处理器是一样的。它不适用于其他语言。 XML 是通用数据标记语言。解析 XML 文件已
xml - 在保留格式的同时从文件读取 XML 和从文件读取 XML
我使用这个 perl 代码从一个文件中读取 XML，然后写入另一个文件(我的完整脚本有添加属性的代码): #!usr/bin/perl -w use strict; use XML::DOM; use
xml - 使用 PowerShell 将 system.xml.xml 元素转换为 system.xml.xml 文档
我正在编写一个我了解有限的历史脚本。对象 A 的类型为 system.xml.xmlelement，我需要将其转换为类型 system.xml.xmldocument 以与对象 B 进行比较(类型
xml - 如何将子节点结构从一个 XML 文件复制到另一个 XML 文件(合并两个 XML 文件)？
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
xml - 如何将子节点结构从一个 XML 文件复制到另一个 XML 文件(合并两个 XML 文件)？
我有以下两个 XML 文件: 文件1 101 102 103 501 502 503
java - 转换性能 XML>XSL>XML 与 XML>JAXB>XML
我有一个案例，其中一个 xml 作为输入，另一个 xml 作为输出:我可以选择使用 XSL 和通过 JAXB 进行 Unmarshalling 编码。性能方面，有什么真正的区别吗？最佳答案首先，程
java - 从 XML 元素获取 XML 时的标签顺序(XML 包含 XML)？
我有包含 XML 的 XML，我想使用 JAXB 解析它 qwqweqwezxcasdasd eee 解析器 public static NotificationRequest parse(Strin
xml - 无法使用 XML 架构和 Perl (XML::LibXML) 验证 XML
xml: mario de2f15d014d40b93578d255e6221fd60 Mario F 23 maria maria
java.net.MalformedURLException : no protocol: [c:\XML\file. xml，c :\XML\file2. xml，c :\XML\file3. xml]
尝试更新 xml 文件数组时出现以下错误。代码片段: File dir = new File("c:\\XML"); File[] files = dir.listFiles(new Filenam
xml - 如何使用 ConvertTo-Xml 和 Select-Xml 加载或读取 XML 文件？
我怎样才能完成这样的事情: PS /home/nicholas/powershell> PS /home/nicholas/powershell> $date=(Get-Date | ConvertT
xml - 删除 XML 节点以将 XML 日志文件的大小减小到给定大小
我在从 xml 文件中删除节点时遇到一些困难。我发现很多其他人通过各种方式在 powershell 中执行此操作的示例，下面的代码似乎与我见过的许多其他示例相同，但我没有得到所需的行为。我的目标是将

首页

博学

6Ren·AI

商城

python - XML 解析忽略文本