gpt4 book ai didi

xml - 我们如何将 Microsoft Word DOCX 文件转换为 XSLT 中的 HTML?

转载 作者:数据小太阳 更新时间:2023-10-29 02:06:02 26 4
gpt4 key购买 nike

我有一个关于将 Word DOCX XML (OOXML) 文件转换为 HTML 格式的项目。

我使用 XML Spy 和 XSLT、XPath、XML 进行这种转换。

想象一下我用 XSLT 编写程序并转换它的单个 Word 文件。但我的主管说,如果我更改文件中的值,该方法将不起作用。

我同意这一点,因为我只为该文档指定了代码,因为我知道其中包含的内容。

但是,我们如何在 XSLT 中编写通用代码以将所有 Word 文件转换为格式良好的 HTML 文档(因为 word 文档之间可能有很大差异)?

问题是我正在尝试使用 XSLT 来完成它?这里有什么不对吗?或者我只是对此太困惑了。

最佳答案

您使用 XSLT 将 DOCX 文件转换为 HTML 的计划基本上是合理的。 XSLT 是实现此目的的理想选择,因为它非常适合从 XML 到 XML(或 (X)HTML)的映射。

您面临的挑战是 DOCX 底层的 XML 很复杂。 Ecma Office Open XML Part 1 - Fundamentals And Markup Language Reference仅此一项就超过 5K 页。如果您熟悉 XML、XML 命名空间、XSLT、HTML 和 CSS,那么您“只需”学习 OOXML 的一些基础知识即可开始。

如果您稳健地执行此操作并且从根本上理解 OOXML,那么关于更改值的担忧将无关紧要。从段落中文本运行的概念开始:w:tw:rw:p

Eric White大体上对 OOXML 进行了大量编写,甚至专门将其转换为 HTML。参见 Transforming Open XML WordprocessingML to XHtml获取优秀的文章和示例。

关于xml - 我们如何将 Microsoft Word DOCX 文件转换为 XSLT 中的 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42928773/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com