python - 使用 Python 的 xml.etree 查找元素开始和结束字符偏移-6ren

python - 使用 Python 的 xml.etree 查找元素开始和结束字符偏移

转载作者：数据小太阳更新时间：2023-10-29 02:05:28

26

4

我有如下所示的 XML 数据:

<xml>
The captial of <place pid="1">South Africa</place> is <place>Pretoria</place>.
</xml>

我希望能够提取:

目前在 etree 中提供的 XML 元素。
文档的完整纯文本，位于开始和结束标记之间。
每个起始元素在纯文本中的位置，作为字符偏移量。

(3) 是目前最重要的需求； etree 提供 (1) fine。

我看不出有什么方法可以直接做(3)，但希望遍历文档树中的元素会返回许多可以重新组合的小字符串，从而提供(2)和(3)。但是，请求根节点的 .text 仅返回根节点和第一个元素之间的文本，例如“的首都 ”。

用 SAX 做 (1) 可能涉及实现很多已经写过很多次的东西，例如迷你王国和etree。使用 lxml 不是此代码要进入的包的选项。有人可以帮忙吗？

最佳答案

iterparse() 函数在 xml.etree 中可用:

import xml.etree.cElementTree as etree

for event, elem in etree.iterparse(file, events=('start', 'end')):
    if event == 'start':
       print(elem.tag) # use only tag name and attributes here
    elif event == 'end':
       # elem children elements, elem.text, elem.tail are available
       if elem.text is not None and elem.tail is not None:
          print(repr(elem.tail))

另一种选择是覆盖 etree.TreeBuilder() 的 start()、data()、end() 方法:

from xml.etree.ElementTree import XMLParser, TreeBuilder

class MyTreeBuilder(TreeBuilder):

    def start(self, tag, attrs):
        print("&lt;%s>" % tag)
        return TreeBuilder.start(self, tag, attrs)

    def data(self, data):
        print(repr(data))
        TreeBuilder.data(self, data)

    def end(self, tag):
        return TreeBuilder.end(self, tag)

text = """<xml>
The captial of <place pid="1">South Africa</place> is <place>Pretoria</place>.
</xml>"""

# ElementTree.fromstring()
parser = XMLParser(target=MyTreeBuilder())
parser.feed(text)
root = parser.close() # return an ordinary Element

输出

<xml>
'\nThe captial of '
<place>
'South Africa'
' is '
<place>
'Pretoria'
'.\n'

关于python - 使用 Python 的 xml.etree 查找元素开始和结束字符偏移，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8111556/

26

4

0

文章推荐： python - XPath:仅获取具有特定子元素的元素

文章推荐： go - 具有独立处理程序的 PathPrefixed 子路由器

文章推荐： go - 无法检索 Office 365 的仅应用程序 token

文章推荐： sql-server - 从 XML FLWOR 查询返回计算的元素名称

naming-conventions - 开始 -> 结束 |停止 |结束？
我正在编写一个类，我想知道哪一对方法更适合描述流程周期: start() -> stop() start() -> end() start() -> finish() 基本上这些方法将在执行任务之前和
android - 小部件类名称什么时候以 "View"结束，什么时候以 "Layout"结束？
对于 Android 小部件类名称是否应以“View”、“Layout”或两者都不结尾，是否存在模式或命名约定？最佳答案如果该类扩展了 View(或在其层次结构中扩展了 View)，那么它应该以“
VIM 高亮匹配开始/结束
我正在尝试找到一个插件，该插件将使用 Verilog 突出显示匹配的开始/结束语句。 VIM 让它与花括号/括号一起工作，但它不能与它的开始/结束一起工作。我希望 VIM 突出显示正确的开始到正确的结
matlab - 时间序列元胞数组中的数据总和(结束)
给出以下代码: % Generate some random data n = 10; A = cell(n, 1); for i=1:n A{i} = timeseries; A{i
javascript - 检测输入何时聚焦于开始/结束
我需要知道是否可以检测输入何时开始聚焦以及何时结束焦点 HTML 代码: JQuery 代码(仅示例我如何需要它): $('.datas').on('focusStart', alert("fo
Java，结束 JFrame
所以我一直在思考一款游戏的想法，一款需要穿越时空的游戏。因此，我编写了一个 JFrame 来显示螺旋的 .gif，但它并没有在对话框显示时结束，而是保留在后台。我可以解决这个问题吗？ import j
java - 我的程序没有以执行器返回/结束
给出以下使用多线程的 Java 示例: import java.util.concurrent.*; public class SquareCalculator { private Ex
java - 结束 do-while 循环
好吧，我有一个 do-while 循环，应该在使用点击“q”时结束，但它给了我错误消息，请帮忙。 package Assignments; import java.util.*; public cla
regex - 正则表达式可选匹配行的开始/结束
我如何有选择地匹配开始 ^或结束 $正则表达式中的一行？例如: /(?\\1', $str); 我的字符串开头和结尾处的粗体边缘情况没有被匹配。我在使用其他变体时遇到的一些极端情况包括字符串内匹配、
java - 结束 while 循环的问题
我试图让程序在总数达到 10 时结束，但由于某种原因，我的 while 循环在达到 10 时继续计数。一旦回答了 10 个问题，我就有 int 百分比来查找百分比。 import java.util.
jquery - 结束()函数
jQuery 中的 end() 函数将元素集恢复到上次破坏性更改之前的状态，因此我可以看到它应该如何使用，但我已经看到了一些代码示例，例如:on alistapart (可能来自旧版本的 jQuery
javascript - 如何知道一个字符串以javascript中的特定字符开始/结束？
这个问题在这里已经有了答案: How to check if a string "StartsWith" another string? (18 个答案) 关闭 9 年前。 var file =
postgresql - 工作停顿(结束)
我正在尝试在 travis 上设置两个数据库，但它只是在 before_install 声明的中途停止: (END) No output has been received in the last 1
mysql - 结束 while 循环缺少分号
我创建了一个简单的存储过程，它循环遍历一个表的行并将它们插入到另一个表中。由于某种原因，END WHILE 循环抛出缺少分号错误。所有代码对我来说都是正确的，并且所有分隔符都设置正确。我只是不明白为什
ios - AVSpeechSynthesis 结束
您好，我正在使用 AVSpeechSynthesizer 和 AVSpeechUtterance 构建一个 iOS 7 应用程序，我想弄清楚合成何时完成。更具体地说，我想在合成结束时更改播放/暂停按钮
javascript - 响应后调用提醒。结束
这是我的代码，我试图在响应后显示警报。但没有显示操作系统警报 string filepath = ConfigurationManager.AppSettings["USPPath"].ToStri
python - 遍历日历月的开始/结束
我想创建一个循环，在提供的时间段、第一天和最后一天返回每个月(考虑到月份在第 28-31 天结束):(“function_to_increase_month”尚未定义) for beg in pd.d
python - 结束 while 循环
我目前正在用 Python 3.6 为一个骰子游戏编写代码，我知道我的编码在这方面有点不对劲，但是，我真的只是想知道如何开始我的 while 循环。游戏说明如下…… 人类玩家与计算机对战。玩家 1
android - 结束 fragment
所以我已经了解了如何打开 fragment。这是我的困境。我的 view 旁边有一个元素列表(元素周期表元素)。当您选择一个元素时，它会显示它的信息。我的问题是我需要能够从(我们称之为详细信息 fr
javascript - 检测滚动完成/结束
我想检测用户何时停止滚动页面/元素。这可能很棘手，因为最近对 OSX 滚动行为的增强创造了这种新的惯性效应。是否触发了事件？我能想到的唯一其他解决方案是在页面/元素的滚动位置不再改变时使用间隔来拾取

首页

博学

6Ren·AI

商城

python - 使用 Python 的 xml.etree 查找元素开始和结束字符偏移

输出