gpt4 book ai didi

java - 将 ALTO XML 转换为格式化的 PDF/RTF/TXT?

转载 作者:行者123 更新时间:2023-11-30 10:57:02 39 4
gpt4 key购买 nike

我希望将大量 ALTO 格式的 XML 文档批量转换为 Windows 中的各种格式,至少是 txt,如果可能的话是 rtf,pdf 也很方便。

ALTO是图书馆和文件馆使用的 xml 标准,用于保存元数据/格式/字体/布局感知文本,以便在 PDF 图像中重建。

我只有大型存档的 XML 文件,我想将其转换为文本挖掘。我使用的软件需要干净的文本或 rtf 文件,因此将 xml 转换为纯文本是一种目标。因为 ALTO 是标准,所以转换应该是可能的,不是吗?

一个好处是能够将元数据嵌入 pdf 或将其转换为书目格式文件,如 LaTex。这可能是一个单独的程序。

我会很感激任何想法,

谢谢。

最佳答案

为了从 ALTO xml 中获取纯文本,您可以尝试在 Java 中实现这个(hacky)Python 脚本中使用的简单方法:https://github.com/cneud/alto-ocr-text .

我目前不知道直接转换为 PDF 或 LaTeX,但您可以根据您的 ALTO 文件的外观使用样式表来完成此操作。

关于java - 将 ALTO XML 转换为格式化的 PDF/RTF/TXT?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32787025/

39 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com