gpt4 book ai didi

java - 如何以编程方式比较两个基于视觉差异的 PDF?

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:26:02 26 4
gpt4 key购买 nike

<分区>

我需要比较并获取两个 PDF 文件中的所有视觉差异。我知道在堆栈溢出时有一些与此相关的问题,但它们不能满足我的需要。

我目前正在使用 PDFBox 为 PDF 页面生成图像并比较图像的字节数。

通过这种方法,我能够知道特定页面不同。

但我需要找到一些更详细的信息,例如某些文本的字体大小,例如 - “文本”的页码不同,例如 PDF 中的 6。

不仅是文本,我还需要处理所有视觉差异,例如图像、图表中的文本等。

请以某种方式建议我实现这一目标。

PS:我尝试使用 Apache Tika,但我感觉它可以用于获取 XHTML 和元数据中的结构化文本。但我看到了字体大小等细节,字体八没有出现在结构化文本中。如果我弄错了,请纠正我。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com