gpt4 book ai didi

java - 如何在元素级别而不是属性上区分XML?

转载 作者:数据小太阳 更新时间:2023-10-29 02:13:12 25 4
gpt4 key购买 nike

我需要在两个XML文档之间进行比较。我一直在研究通常在Stack Overflow上提到的许多不同的xml-diffing工具,但是我的需求当然非常奇特,因此并不十分适合。简而言之,我不需要比较整个文档,而是要比较元素内容(虽然要考虑顺序),并且需要一种非常特定的输出格式,而不是传统的diff补丁。

请原谅这段文字,但我觉得很难解释得更短。

首先,我的局限性

该解决方案必须基于Java,或可与命令行Java应用程序集成。它也必须是免费的,因为不允许我在这上面花“真钱”,只有我的工作时间(但当然不要太多;我迫在眉睫的最后期限)...听起来很熟悉?最后,我的目标不是传统的diff补丁结果,而是两个源文件的非直接组合。

其次,我的数据描述

每个文档都包含textsection类型的节点;文本是简单的字符串,但是部分可以同时包含文本和更多部分(它们也有一个名称,作为属性给出)。此外,每个节点都用修订信息标记。

这是一个样本文件。请注意,为简便起见,这似乎是一个列表。实际上,它更像散文,也就是说,元素顺序非常重要。

<document diff="=" revision="1">
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Chxrries</text>
<section diff="=" revision="1" name="Blue ones">
<text diff="=" revision="1">Grapes</text>
<section diff="=" revision="1" name="More">
<text diff="=" revision="1">Blueberries</text>
</section>
<text diff="=" revision="1">Oranges</text>
</section>
</document>

需要将此文件与包含更改但没有修订信息的新版本进行比较(尚未!)。在此示例中,我修复了第二个元素中的拼写错误,并移动了另一个元素,但是可能会有更广泛的更改,例如添加或删除整个部分。
<document>
<text>Apples</text>
<text>Oranges</text>
<text>Cherries</text>
<section name="Blue ones">
<text>Grapes</text>
<section name="More">
<text>Blueberries</text>
</section>
</section>
</document>

目标是创建包含所有信息的第三个XML文档。请注意,受影响元素的 diff标签已更改(“*”表示元素内的更改),并且其 revision编号已增加;不变的元素保留其旧修订信息。
<document diff="*" revision="2">
<text diff="=" revision="1">Apples</text>
<text diff="+" revision="2">Oranges</text>
<text diff="-" revision="2">Chxrries</text>
<text diff="+" revision="2">Cherries</text>
<sectio diff="*" revision="1"n name="Blue ones">
<text diff="=" revision="1">Grapes</text>
<section diff="=" revision="1" name="More">
<text diff="=" revision="1">Blueberries</text>
</section>
<text diff="-" revision="2">Oranges</text>
</section>
</document>

因此,结果不是diff补丁,而是带有更新的修订信息的完整文档。

第三,我所做的工作-以及我的问题

我通过使用自定义java函数进行逐行比较来完成大部分工作-除了在一个特定用例中失败(即,当旧版本多次包含特定文本,而在一个特定用例中多次失败)它们的最后一个在新版本中进行了更改。这将“欺骗”比较器使旧版本的文本与以下新版本的文本匹配,而不是识别一个文本的更改。尽管从技术上讲结果是正确的,但不必要的添加和删除所带来的“噪音”掩盖了这一事实,对于人类来说,看这显然是一团糟(并且顺便说一下,此标记是为人类可读性而设计的)。现在,正是由于我的逐行方法,我发现这很难解决。

这是一个欺骗我的代码的用例示例。首先,一个简单的水果篮:
<document diff="=" revision="1">
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Oranges</text>
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Cherries</text>
<text diff="=" revision="1">Apples</text>
</document>

现在,让我们更改第二个“苹果”项:
<document>
<text>Apples</text>
<text>Oranges</text>
<text>Bananas</text> <--- I've only changed this
<text>Cherries</text>
<text>Apples</text>
<text>Grapes</text>
</document>

结果错误地变成了:
<document diff="*" revision="2">
<text diff="=" revision="1">Apples</text>
<text diff="=" revision="1">Oranges</text>
<text diff="+" revision="2">Bananas</text> <--- Addition, okay
<text diff="+" revision="2">Cherries</text> <--- Incorrectly added
<text diff="=" revision="1">Apples</text> <--- Incorrectly matches the next occurrence
<text diff="-" revision="2">Cherries</text> <--- Incorrectly removed
<text diff="-" revision="2">Apples</text> <--- Incorrectly removed
<text diff="=" revision="1">Grapes</text> <--- Back on track, after the next occurrence of the changed element
</document>

没错,我可能可以缓解此问题,但可以实施某种形式的先行预测,但是我无法告知 future 的发展方向,因此这听起来像是一个非常麻烦的解决方法,而不是真正的解决方案。

...因此,在最后,我迫切需要一个xml diff工具,该工具可让我分析数据内容并创建此非常特殊的输出。要么如此,要么关于如何避免这种特殊陷阱的任何提示。

如果您有任何建议或疑问,我非常希望收到您的来信。

这是对 previous question的重新声明。不幸的是,我无法提供任何奖励来宣传它,但希望我在这里的新解释会更好。

对于它的价值,这是我的算法,@ LarsH链接到的 DiffAlgorithm页面上似乎没有列出该算法:

比较两个列表:将它们的左手和右手分别称为lL和lR
双方。创建两个“主要”指针iL和iR并将它们设置为
每个列表的第一个元素。对于循环,请使用这些主指针
设置主要元素eL和eR,以使eL = lL(iL)和eR = lR(iR)。
比较eL和eR。如果eL匹配eR,我们可以将eL复制为
匹配,并将两个主指针都向前移动一个插槽。如果eL和eR
不匹配,创建辅助指针(iR2),将其初始化为
iR(iR2 = iR + 1)之后的插槽并扫描lR的其余部分(设置
eR2 = lR(iR2))。如果在lR的其余部分中eL不匹配,
eL必须已删除,我们可以将eL作为结果添加到
删除并仅前进主指针iL(以便下一个
比较将比较下一个eL与相同的eR)。如果找到eL
匹配eR2(在位置iR2> iR处),然后匹配范围内的所有元素
[iR,iR2 [必须已添加。然后,我们可以在其中添加每个元素
将IR的范围作为结果相加,并设置iR = iR2。我们也可以
将元素eL作为匹配项添加到结果中(因为它已被匹配
在eR2),最后在新的主指针处重复比较
职位。在迭代两个中的较短者时执行所有这些操作
清单;然后,将lL的其余部分添加为删除项,或添加
lR的其余部分作为补充。

最佳答案

原来,我当时没有解决方案!同时,我已经开发了自己的专用于我的问题的xml-diff例程,因此最终得到了一个可行的解决方案。

然后,在2011年末发布了此文件:Slashdot: Researchers Expanding Diff, Grep Unix Tools

达特茅斯的计算机科学家介绍了grep和diff Unix命令行实用程序的变体,它们可以处理更复杂的数据类型。新的程序称为上下文无关Grep和Hierarchical Diff,将提供解析数据块而不是单行的功能。这项研究部分由Google和美国能源部资助。

关于java - 如何在元素级别而不是属性上区分XML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6469271/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com