gpt4 book ai didi

openxml-sdk - 使用 OOXML 比较 Docx 文件

转载 作者:行者123 更新时间:2023-12-04 03:18:10 30 4
gpt4 key购买 nike

如何从 docx 文件中逐字读取(带样式)。我想逐字比较两个 docx 文件,并根据我必须写入另一个 docx 文件(使用 c# 和 OOXML)的差异。
我已经尝试通过使用 DocumentFormat.OpenXml.Extensions.dll、OpenXMLdiff.dll 和 ICSharpCode.SharpZipLib.dll 来实现这一点,但没有任何东西让我可以选择逐字阅读(ICSharpCode.SharpZipLib 确实提供了逐字阅读,但是它不会给出与该词相关的样式)。

对此的任何帮助都将非常有用。

最佳答案

这篇 MSDN 文章展示了如何可靠地逐段检索文档的确切文本。

http://msdn.microsoft.com/en-us/library/ff686712.aspx

同时,您可以确定每个段落的样式。这很容易。以下博客文章展示了如何检索每个段落的样式和文本:

http://blogs.msdn.com/b/ericwhite/archive/2009/02/16/finding-paragraphs-by-style-name-or-content-in-an-open-xml-word-processing-document.aspx

比较两者?这取决于您确切所需的语义。一种方法是创建一个包含段落和样式的 XML 文档,然后比较这些 XML 文档。 XML 文档可能如下所示:

<Root>
<Para>
<Style>Normal</Style>
<Text>This is the text of the paragraph.</Text>
</Para>
<Para>
<Style>Heading1</Style>
<Text>Overview of the Process</Text>
</Para>
</Root>

关于openxml-sdk - 使用 OOXML 比较 Docx 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2271805/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com