gpt4 book ai didi

c# - 从 XML 文档中删除节点的神秘失败

转载 作者:行者123 更新时间:2023-11-30 22:16:15 25 4
gpt4 key购买 nike

如果有人能解释这一点,我会感到很惊讶,但知道其他人是否能重现我正在经历的怪异现象会很有趣...

我们有一个基于 InfoPath 的东西可以处理很多表单。表单数据应符合 XSD,但 InfoPath 不断以所谓的“我的字段”的形式添加自己的元数据。我们想删除我的字段,我写了这个简单的方法:

string StripMyFields(string xml)
{
var doc = new XmlDocument();
doc.LoadXml(xml);

var matches = doc.SelectNodes("//node()").Cast<XmlNode>().Where(n => n.NamespaceURI.StartsWith("http://schemas.microsoft.com/office/infopath/"));
Dbug("Found {0} nodes to remove.", matches.Count());
foreach (var m in matches)
m.ParentNode.RemoveChild(m);

return doc.OuterXml;
}

现在来了真正奇怪的东西!当我运行这段代码时,它的行为与我预期的一样,删除了 InfoPath 命名空间中的所有节点。但是,如果我注释掉对 Dbug 的调用,代码会完成,但一个“我的字段”仍保留在 XML 中。

我什至注释掉了方便的 Dbug 方法的内容,它仍然以同样的方式运行:

void Dbug(string s, params object[] args)
{
//if (args.Length > 0)
// s = string.Format(s, args);
//Debug.WriteLine(s);
}

输入 XML:

<?xml version="1.0" encoding="UTF-8"?>
<skjema xmlns:my="http://schemas.microsoft.com/office/infopath/2003/myXSD/2008-03-03T22:25:25" xml:lang="en-us">
<Field-1643 orid="1643">data.</Field-1643>
<my:myFields>
<my:field1>Al</my:field1>
<my:group1>
<my:group2>
<my:field2 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">2009-01-01</my:field2>
<Field-1611 orid="1611">More data.</Field-1611>
<my:field3>true</my:field3>
</my:group2>
<my:group2>
<my:field2>2009-01-31</my:field2>
<my:field3>false</my:field3>
</my:group2>
</my:group1>
</my:myFields>
<Field-1612 orid="1612">Even more data.</Field-1612>
<my:field3>Blah blah</my:field3>
</skjema>

“my:field3”元素(在底部,文本“Blah blah”)不会被删除,除非我调用 Dbug。

显然宇宙不应该是这样的,但我很想知道其他人是否能够复制。

我在 Win8 Enterprise 6.2.9200 上使用 VS2012 Premium (11.0.50727.1 RTMREL) 和 FW 4.5.50709。

最佳答案

要事第一。 LINQ 使用称为 deferred execution 的概念.这意味着在您实际具体化查询(例如通过枚举)之前不会获取任何结果。

为什么您的节点删除问题很重要?让我们看看您的代码中发生了什么:

  1. SelectNodes 创建 XPathNodeIteratorXPathNavigator 使用它,它将数据提供给 返回的 XmlNodeList选择节点
  2. XPathNodeIterator 根据提供的 XPath 表达式遍历 xml 文档树
  3. CastWhere 简单地决定XPathNodeIterator 返回的节点是否应该参与最终结果

我们在 DBug 方法调用之前到达。暂时假设它不存在。此时,什么实际上还没有发生。我们只有 未具体化 LINQ 查询。

当我们开始迭代时,情况会发生变化。所有迭代器(CastWhere 也有自己的迭代器)开始滚动。 WhereIteratorCastIterator 询问项目,然后询问 XPathNodeIterator 最后返回第一个节点 (Field-1643)。不幸的是,这个没有通过 Where 测试,所以我们要求下一个。 my:myFields 更幸运,它是一个匹配项 - 我们将其删除。

我们快速进入 my:field1(同样,WhereIteratorCastIteratorXPathNodeIterator),这是也删除了。在这里停一下。删除 my:field1 会将其与其父节点分离,这会导致将其 (my:field1) 兄弟节点设置为 null(之前没有其他节点/删除节点后)。

目前情况如何? XPathNodeIterator 知道它的当前元素是刚刚被删除的 my:field1 节点。像从父对象中分离一样被删除,但迭代器仍然持有引用。听起来不错,让我们为下一个节点请求它。 XPathNodeIterator 做什么?检查它的 Current 项,并请求 NextSibling(因为它没有 child 先走)- 这是 null,因为我们刚刚执行了分离.这意味着迭代结束了。工作完成。

因此,通过在迭代期间更改集合结构,您仅从文档中删除了两个节点(而实际上只有一个,因为第二个删除的节点是已删除的节点的子节点)。

使用更简单的 XML 可以观察到相同的行为:

<Root>
<James>Bond</James>
<Jason>Bourne</Jason>
<Jimmy>Keen</Jimmy>
<Tom />
<Bob />
</Root>

假设我们想去掉以 J 开头的节点,导致文档只包含诚实的人名:

var doc = new XmlDocument();
doc.LoadXml(xml);

var matches = doc
.SelectNodes("//node()")
.Cast<XmlNode>()
.Where(n => n.Name.StartsWith("J"));

foreach (var node in matches)
{
node.ParentNode.RemoveChild(node);
}

Console.WriteLine(doc.InnerXml);

不幸的是,JasonJimmy 留下了。 James 的下一个 sibling (由迭代器返回的那个)原本应该是 Jason,但是一旦我们从树中分离出 James没有 sibling ,迭代结束。

现在,为什么它与 Dbug 一起工作? Count 调用具体化查询。迭代器已经运行,我们可以访问我们开始循环时需要的所有节点。 ToListWhere 之后调用,或者如果您在调试期间检查 结果(VS 甚至通知您检查结果将枚举集合),也会发生同样的事情。

关于c# - 从 XML 文档中删除节点的神秘失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17527818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com