gpt4 book ai didi

python - 使用 Python ElementTree 提取 XML 标签中的文本

转载 作者:数据小太阳 更新时间:2023-10-29 02:31:30 26 4
gpt4 key购买 nike

我有一个包含数万个 XML 文件(小文件)的语料库,我正在尝试使用 Python 并提取其中一个 XML 标签中包含的文本,例如,正文标签之间的所有内容,例如:

<body> sample text here with <bold> nested </bold> tags in this paragraph </body>

然后编写包含此字符串的文本文档,然后继续向下移动 XML 文件列表。

我正在使用 effbot 的 ELementTree,但找不到执行此操作的正确命令/语法。我找到了一个使用 miniDOM 的 dom.getElementsByTagName 的网站,但我不确定 ElementTree 对应的方法是什么。任何想法将不胜感激。

最佳答案

一个更好的答案,展示了如何实际使用 XML 解析来做到这一点:

import xml.etree.ElementTree as ET
stringofxml = "<body> sample text here with <bold> nested </bold> tags in this paragraph </body>"

def extractTextFromElement(elementName, stringofxml):
tree = ET.fromstring(stringofxml)
for child in tree:
if child.tag == elementName:
return child.text.strip()

print extractTextFromElement('bold', stringofxml)

关于python - 使用 Python ElementTree 提取 XML 标签中的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11065004/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com