python - LXML Xpath 似乎没有返回完整路径-6ren

python - LXML Xpath 似乎没有返回完整路径

转载作者：行者123 更新时间：2023-11-28 22:54:49

26

4

好吧，我会第一个承认它是，只是不是我想要的路径，我不知道如何得到它。

我在工作的 Windows 7 和家里的 ubuntu 13.04 中都在 Eclipse 中使用 Python 3.3 和 Pydev 插件。我是 python 新手，编程经验有限。

我正在尝试编写一个脚本来接收 XML Lloyds 市场保险消息，找到所有标签并将它们转储到 .csv 中，我们可以在其中轻松更新它们，然后重新导入它们以创建更新的 xml。

我已经设法做到了所有这些，除了当我获得所有标签时它只给出标签名称而不是上面的标签。

<TechAccount Sender="broker" Receiver="insurer">
<UUId>2EF40080-F618-4FF7-833C-A34EA6A57B73</UUId>
<BrokerReference>HOY123/456</BrokerReference>
<ServiceProviderReference>2012080921401A1</ServiceProviderReference>
<CreationDate>2012-08-10</CreationDate>
<AccountTransactionType>premium</AccountTransactionType>
<GroupReference>2012080921401A1</GroupReference>
<ItemsInGroupTotal>
<Count>1</Count>
</ItemsInGroupTotal>
<ServiceProviderGroupReference>8-2012-08-10</ServiceProviderGroupReference>
<ServiceProviderGroupItemsTotal>
<Count>13</Count>
</ServiceProviderGroupItemsTotal>

那是 XML 的片段。我想要的是找到所有标签及其路径。例如，我想将其显示为 ItemsInGroupTotal/Count，但只能将其显示为 Count。

这是我的代码:

xml = etree.parse(fullpath)
print( xml.xpath('.//*'))
all_xpath = xml.xpath('.//*')
every_tag = []
for i in all_xpath:
    single_tag = '%s,%s' % (i.tag, i.text)
    every_tag.append(single_tag)
print(every_tag)

这给出:

'{http://www.ACORD.org/standards/Jv-Ins-Reinsurance/1}ServiceProviderGroupReference,8-2012-08-10', '{http://www.ACORD.org/standards/Jv-Ins-Reinsurance/1}ServiceProviderGroupItemsTotal,\n', '{http://www.ACORD.org/standards/Jv-Ins-Reinsurance/1}Count,13',

如您所见，Count 显示为 {namespace}Count, 13 而不是 {namespace}ItemsInGroupTotal/Count, 13

谁能指出我需要什么？

谢谢(希望我的第一篇文章没问题)

亚当

编辑:

现在这是我的代码: 使用 open(fullpath, 'rb') 作为 xmlFilepath: xmlfile = xmlFilepath.read()

fulltext = '%s' % xmlfile
text = fulltext[2:]
print(text)


xml = etree.fromstring(fulltext)
tree = etree.ElementTree(xml)

every_tag = ['%s, %s' % (tree.getpath(e), e.text) for e in xml.iter()]
print(every_tag)

但这会返回一个错误:ValueError:不支持带有编码声明的 Unicode 字符串。请使用不带声明的字节输入或 XML 片段。

我删除了前两个字符，因为你是 b' 并且它提示它没有以标签开头

更新:

我一直在研究这个，如果我删除 xis:xxx 标签和顶部的 namespace 内容，它会按预期工作。我需要保留 xis 标签并能够将它们识别为 xis 标签，所以不能只删除它们。

对我如何实现这一点有什么帮助吗？

最佳答案

ElementTree objects have a method getpath(element), which returns a structural, absolute XPath expression to find that element

在 iter() 循环中的每个元素上调用 getpath 应该适合你:

from pprint import pprint
from lxml import etree


text = """
<TechAccount Sender="broker" Receiver="insurer">
    <UUId>2EF40080-F618-4FF7-833C-A34EA6A57B73</UUId>
    <BrokerReference>HOY123/456</BrokerReference>
    <ServiceProviderReference>2012080921401A1</ServiceProviderReference>
    <CreationDate>2012-08-10</CreationDate>
    <AccountTransactionType>premium</AccountTransactionType>
    <GroupReference>2012080921401A1</GroupReference>
    <ItemsInGroupTotal>
        <Count>1</Count>
    </ItemsInGroupTotal>
    <ServiceProviderGroupReference>8-2012-08-10</ServiceProviderGroupReference>
    <ServiceProviderGroupItemsTotal>
        <Count>13</Count>
    </ServiceProviderGroupItemsTotal>
</TechAccount>
"""

xml = etree.fromstring(text)
tree = etree.ElementTree(xml)

every_tag = ['%s, %s' % (tree.getpath(e), e.text) for e in xml.iter()]
pprint(every_tag)

打印:

['/TechAccount, \n',
 '/TechAccount/UUId, 2EF40080-F618-4FF7-833C-A34EA6A57B73',
 '/TechAccount/BrokerReference, HOY123/456',
 '/TechAccount/ServiceProviderReference, 2012080921401A1',
 '/TechAccount/CreationDate, 2012-08-10',
 '/TechAccount/AccountTransactionType, premium',
 '/TechAccount/GroupReference, 2012080921401A1',
 '/TechAccount/ItemsInGroupTotal, \n',
 '/TechAccount/ItemsInGroupTotal/Count, 1',
 '/TechAccount/ServiceProviderGroupReference, 8-2012-08-10',
 '/TechAccount/ServiceProviderGroupItemsTotal, \n',
 '/TechAccount/ServiceProviderGroupItemsTotal/Count, 13']

更新:如果您的 xml 数据在文件 test.xml 中，则代码如下所示:

from pprint import pprint
from lxml import etree

xml = etree.parse('test.xml').getroot()
tree = etree.ElementTree(xml)

every_tag = ['%s, %s' % (tree.getpath(e), e.text) for e in xml.iter()]
pprint(every_tag)

希望对您有所帮助。

关于python - LXML Xpath 似乎没有返回完整路径，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17558532/

26

4

0

文章推荐： java - AOP(没有 Spring)不适用于 Tomcat 但 Eclipse

文章推荐： python - 如何制作适用于另一个平台的 Python virtualenv？

文章推荐： python - 提高 Gauss-Seidel (Jacobi) Solver 的 Numpy 速度

文章推荐： python - 在循环中逐列修改 numpy 数组

JAVA技术实现上传下载文件到FTP服务器(完整)
具体详细介绍请看下文：在使用文件进行交互数据的应用来说，使用FTP服务器是一个很好的选择。本文使用Apache Jakarta Commons Net（commons-net-3.3.jar）
jetty HttpParser 完整
我在日志文件中收到这些警告: WARN 2013-01-15 00:08:15,550 org.eclipse.jetty.http.HttpParser- HttpParser Full for
javascript - 在浏览器中查看源代码时显示的源代码是否始终准确/完整？
我在使用特定网页时遇到问题。当我按下链接时，我收到应用程序错误(不是 http 错误等，而是应用程序级别错误)。但是我打开了开发人员工具和网络控制台，我看到没有请求发送到服务器。所以我双击并选择查
c - 此汇编函数调用是否安全/完整？
我没有组装经验，但这是我一直在做的。如果在通过程序集中的指针传递参数和调用函数时缺少任何基本方面，我希望输入。例如，我想知道是否应该还原ecx，edx，esi，edi，。我读到它们是通用寄存器，但我
c - 此汇编函数调用是否安全/完整？
我没有组装经验，但这是我一直在做的。如果在通过程序集中的指针传递参数和调用函数时缺少任何基本方面，我希望输入。例如，我想知道是否应该还原ecx，edx，esi，edi，。我读到它们是通用寄存器，但我
ios - 完整 UIScrollView 的快照
我正在尝试创建完整 uiscrollview 的快照，所有内容大小，我已经搜索了很多，并且我在 SO 上找到了一些东西，如下所示: Getting a screenshot of a UIScroll
java - 修改其副本时保持原始 Vector 完整
我想复制一个包含以下结构的Vector，对我来说重要的是在修改复制的 vector 时保持原始Vector完整: public class objet_poid_n { public int
python - 按分隔符分割时保持引用 block 完整
给定一个示例字符串 s = '嗨，我的名字是 Humpty-Dumpty，来自“爱丽丝，爱丽丝镜中奇遇记”'，我想将其分成以下 block : # To Do: something like {l =
bash - 寻找库来连接相对/完整 url。
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以
python - 完整 Linux 文件路径的正则表达式
我正在尝试创建一个正则表达式来查找文本中的 Linux 文件路径，但是正则表达式对我来说非常陌生。我有下面的代码片段，它将识别下面文件结构的开头。 .*(/bin/|/home/).* 完成正则表达式
php - 如何在不下载(完整)的情况下确定图像的大小？
我正在寻找远程托管的 JPG 的尺寸、宽度和高度。我已经了解了如何通过下载完整图像来执行此操作。但是，如果我可以通过仅下载足以获取此信息的方式来做到这一点，那将是理想的。典型的图像大小为 200K
Python:如何获取我所在函数的*完整*名称
有没有办法让下面的代码: import traceback def log(message): print "%s: %s" %(traceback.extract_stack()[0:-1]
c# - 完整 Windows 桌面的实时视频处理
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
git - 仅显示修订中更改的(完整)文件名
git show 显示了修订版中所做的所有更改。但是，它会打印出所有更改——而不仅仅是文件名。 git show --stat 只显示文件名，但它把它们截断了!有没有办法获得已更改文件名的完整列表？
language-agnostic - 面向*完整*初学者的奖励代码项目
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
get_absolute_url 中的 Django 完整 url
当我在模板中调用我的模型 get_absolute_url 方法时，我想要一个绝对/完整的 url。在我的入门模型中，我有以下内容: def get_absolute_url(self): r
jquery - animate 的回调函数(完整)在开始时执行？
我正在使用 jQuery 1.5.1 这是我的代码: $('.cellcontent').animate({ left: '-=190'}, { easing: alert('start
javascript - 完整 d3 图表的故障/消失
我正在使用下面的方法删除条形图并使用新数据更新条形图，但这样做时出现了一个小故障/完整的图表消失 1 秒，直到加载新数据。但是是否可以通过仅增加/减少柱形而不实际消失图表来实现相同的目的。 d3.se
generics - 完整、高效的 NumericLiteral 模块实现
基于 this question 中的讨论，任何人都可以提供代码或代码链接，显示 NumericLiteralX 模块的完整实现(例如 this one )？我对 NumericLiteralX 模块
java - 检索正确(完整)的 html
我的目标是检索网站的 html，并将其转换为可读的String。我下面的代码可以工作，但我遇到了一个技术问题:当我尝试检索 http://time.gov/HTML5 的 html 时，我在 andr

首页

博学

6Ren·AI

商城

python - LXML Xpath 似乎没有返回完整路径