gpt4 book ai didi

java - 从 xml 文档中提取纯文本的最简单方法是什么?

转载 作者:行者123 更新时间:2023-12-01 16:00:53 25 4
gpt4 key购买 nike

我有一些 xml 格式的电子书。书籍的页面使用处理指令进行标记(例如 <?pg 01?> )。我需要以纯文本形式提取书中的内容,一次一页,并将每一页保存为文本文件。最好的方法是什么?

最佳答案

假设您需要将其集成到 Java 程序中(如标签所示),最简单的方法可能是使用 SAX 解析器,例如 XMLReader提供。您为 text 编写一个 ContentHandler 回调和 processing instructions .

当您的 p-i 处理程序被调用时,您将打开一个新的输出文件。

当调用文本处理程序时,您将字符数据复制到当前打开的输出文件。

This tutorial有一些有用的示例代码。

但是如果您不需要将其集成到 Java 程序中,我可能会使用 XSLT 2.0 ( Saxon is free )。 XSLT 1.0 不允许多个输出文档,但 XSLT 2.0 允许,并且它还将使按“里程碑标记”(您的“pg”处理指令)进行分组变得更容易。如果您对这种方法感兴趣,请询问...并提供有关输入文档结构的更多信息。

P.S. 即使您确实需要将其集成到 Java 程序中,您也可以从 Java 调用 XSLT - 例如 Saxon 是用 Java 编写的。不过,我认为如果您只是处理 PI 和文本,那么使用 SAX 解析器会更省力。

关于java - 从 xml 文档中提取纯文本的最简单方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3962866/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com