- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 Ubuntu 上使用 Python 3.6.8 和 lxml-4.3.4。
我所追求的是将大型 XML 内容分解为片段文件,以便更容易工作,并保留已解析元素的源文件名和行号,以便我可以形成有用的解析时错误消息。当 XML 格式良好时,我将引发的错误特定于我的应用程序。
以下是一些示例 XML 片段文件:
one.xml:
<?xml version="1.0" encoding="UTF-8" ?>
<data>
<one>1</one>
<one>11</one>
<one>111</one>
<one>1111</one>
</data>
两个.xml:
<?xml version="1.0" encoding="UTF-8" ?>
<data>
<two>2</two>
<two>22</two>
<two>222</two>
<two>2222</two>
<two>22222</two>
<two>222222</two>
</data>
我的计划是使用 lxml 来解析每个文件,然后简单地将元素树拼接在一起以获得单个根。然后我的程序的其余部分可以消耗整个树。
如果元素的内容对我的应用程序无效,我想给出它来自的片段文件和行号。 lxml 已经有行号,但没有源文件。所以我想追踪这一点。请注意,我决定不尝试扩展 lxml 的类,而是使用元素对象标识符到片段文件的映射,我希望即使 lxml 重构其源代码,它也是持久的。
from lxml import etree
# Too much data for one source file, so let's define
# fragment files, each of which looks like a stand
# alone XML file w/ header and root <data>...</data>
# to make syntax highlighters happy.
xmlFragmentFiles = ['one.xml', 'two.xml']
# lxml tracks line number for parsed elements, but not
# source filename. Rather than try to extend the deep
# inner classes of the module, let's try keeping a map
# from parsed elements to fragment file they just came
# from.
element2fragment = {}
def AddFragmentFileToETree(element, fragmentFile):
# The entry we're just about to add.
print('%s:%s' % (id(element), fragmentFile))
element2fragment[id(element)] = fragmentFile
for child in element:
AddFragmentFileToETree(child, fragmentFile)
# Fabricate a root that we'll stitch each fragment's
# children onto as we parse them.
root = etree.fromstring('<data></data>')
AddFragmentFileToETree(root, 'Programmatic Root')
for filename in xmlFragmentFiles:
# It doesn't seem to matter whether we create a new
# parser per fragment, or reuse a single parser.
parser = etree.XMLParser(remove_comments=True)
subroot = etree.parse(filename, parser).getroot()
for child in subroot:
root.append(child)
AddFragmentFileToETree(child, filename)
# Clearly the final desired tree is here, and presumably
# all the subelements we care about are reachable from
# the programmatic root meaning the objects are still
# live, so why did any object identifier get reused?
print(etree.tostring(
root, encoding=str, pretty_print=True))
当我运行这个程序时,我可以看到整个所需的树以及片段文件的每个不同元素都带有 pretty-print 。但是,查看我们插入的映射条目,我们可以清楚地看到对象正在被重用!?
140611035114248:Programmatic Root
140611035114056:one.xml <-- see here
140611035114376:one.xml
140611035114440:one.xml
140611035114056:one.xml <-- and here
140611035114312:two.xml
140611035114120:two.xml
140611035114056:two.xml <-- and here
140611035114312:two.xml
140611035114120:two.xml
140611035114056:two.xml <-- and again
<data><one>1</one>
<one>11</one>
<one>111</one>
<one>1111</one>
<two>2</two>
<two>22</two> <-- yet all distinct elements still exist
<two>222</two>
<two>2222</two>
<two>22222</two>
<two>222222</two>
</data>
有什么关于这些对象的建议吗?也许我应该远离 lxml,它是一个 C 库?我切换到 lxml 只是为了行号跟踪。
最佳答案
我决定继续扩展/自定义解析器......并找到了这个原始问题的答案。
https://lxml.de/element_classes.html
他们警告说 python Element 代理是无状态的,
Element instances are created and garbage collected at need, so there is normally no way to predict when and how often a proxy is created for them.
他们接着说,如果你真的需要它们来携带状态,你必须为每个保留一个实时引用:
proxy_cache = list(root.iter())
这对我有用。我认为当元素具有对子元素的实时引用时,根就足够了,但代理显然是根据 C 中维护的真实树的需要出现的。
关于python - 当对象处于事件状态时,lxml 对象标识符似乎会被重用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57059021/
C++ Primer 说: The identifier we define in our programs may not contain 2 consecutive underscores, no
标识符术语在文档 alongside constants 中定义。 , 使用几乎相同的用例,尽管术语在运行时计算它们的值,而常量在编译时得到它。潜在地,这可能会使术语使用全局变量,但这是一个遥远而丑陋
我想知道,.Net 标识符中接受哪些字符? 不是 C# 或 VB.Net,而是 CLR。 我问这个的原因是我正在查看 yield return 语句是如何实现的 (C# In Depth),并看到
在PowerShell中,当我专门使用Active Directory时,通常会编译一个包含一组人群列表的对象,通常使用$x = get-adgroup -filter {name -like "*"
使用 hibernate 时: 我必须为每个实体指定一个 ID 或复合 ID,如果我想使用没有任何主键且没有复合键的表怎么办... 提前致谢 最佳答案 没有键的表不是一个好的关系模型。我不会推荐它。
所以我有一些代码正在尝试编译,但我不断收到此错误: 3SATSolver.java:3: expected 这是代码。我只是没有看到什么吗? import java.util.ArrayList;
我正在寻找有关 C 标准(C99 和/或 C11)部分内容的一些说明,主要是关于标识符的使用。 上下文是一个完整的C99标准库的实现,我希望它完全符合标准。 基本问题是:C 标准允许我在多大程度上声明
我有这个 Shader.h 文件,我正在用这段代码制作它: #include #include #include #include in vec2 TexCoords; out vec4 co
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
这是我的代码: #include "stdafx.h" #include #include #include #include using namespace std; int _tmain(
pthread_create() 的第一个参数是一个thread 对象,用于标识新创建的线程。但是,我不确定我是否完全理解其中的含义。 例如,我正在编写一个简单的聊天服务器并且我计划使用线程。线程会随
我想从我的标识符中获得匹配项。 我在 {/describe:foo} 中有一个这样的字符串,我正在尝试匹配 {/describe:} 以返回 foo,但我没有得到正确的正则表达式,会有人介意指出我做错
我遇到了一个奇怪的问题,我似乎找不到答案,但我想我不妨问问。 我有一个执行碰撞检查的抽象类,它有一个“更新”函数,以及“updateX”和“updateY”函数。 class MapCollidabl
我正在尝试创建一个程序来将所有文件从一个目录复制到另一个目录。但我遇到了一个基本问题。它说当我尝试在第 52 行编译时需要标识符。 public bool RecursiveCopy() {
1>cb.c(51): error C2061: syntax error : identifier 'SaveConfiguration' 1>cb.c(51): error C2059: synt
我刚刚发现命名变量 arguments 是个坏主意。 var arguments = 5; (function () { console.log(arguments); })(); Outpu
我们对我们的网站进行了安全测试,并发现了一个漏洞。 问题 If the session identifier were known by an attacker who had access to t
为了估计程序在一次内核启动中可以处理多少数据,我尝试使用 cudaMemGetInfo() 获取一些内存信息。但是,编译器告诉我: 错误:标识符“cudaMemGetInfo”未定义 cudaGetD
我发现我需要使用 xpath 查询来定位几乎是 regexp 类型的字符串,但无法看到如何管理它。我正在使用的当前查询是: $result = $xpath->query('//ul/li[sta
我正在创建我的学生计划表的虚拟版本,它基本上可以让你记下你有哪些科目的作业。 这是界面: 用户从组合框中选择主题,并在相邻的备忘录中输入一些注释。完成后,他们将单击“保存”按钮,将其保存到 .ini
我是一名优秀的程序员,十分优秀!