gpt4 book ai didi

image - 文字为图和图形为图的区别

转载 作者:行者123 更新时间:2023-12-01 12:19:02 29 4
gpt4 key购买 nike

这个问题似乎很奇怪,但我需要问这个,因为当我将文本与图像进行比较,将图形与图像进行比较时,我看到了一个非常有趣的输出。

理想情况下,我正在确定一种工具或算法来比较两个 pdf,生成突出显示它们之间差异的输出。

pdf 有可能将文本作为图像格式(纸上的遗留文本,被转换为 pdf)。

我们正在迁移那些旧版 pdf,最后我们将与旧版和转换后的 pdf 输出进行比较。

我正在评估一些工具,如 Adob​​e dc pro、i-net pdfc 和 power pdf 等,以比较两个 pdf。

在评估时,我能够看到 pdf 两侧的图形图像正在比较(也不准确)。在完全忽略文本和图像的情况下,所有工具的结果一致。

但我对作为图像的文本更感兴趣,因为我们处理更多遗留文本 pdf。

下面附上图形图像比较结果,可以捕捉到图像之间的差异。

graphic image

但是当我比较文本图像时,工具中没有突出显示差异。

text image

据我了解,文字并没有与图像图形进行比较,工具完全忽略了比较。我想澄清我的假设是否正确。

其次,我想知道如何比较pdf中的文本图像以产生差异?

最佳答案

我在 i-net PDFC 作者的公司工作,所以我也会回答你的第一个问题:

你的假设是正确的。 i-net PDFC 能够比较图像和形状,但它无法检测某些内容是否完全改变了它的含义,例如用于绘制字母或在您的情况下必须被识别为文本的图像的线条形状。出于同样的原因,将 ASCII 艺术识别为图像也行不通。这种情况总是会被检测为差异,即使它们的视觉外观相似。

关于您的第二个问题:对一个或两个文档使用 OCR 转换工具是解决此问题的常见方法。由于转换文件中的不同字体样式和换行,比较页面的简单图像比较不太可能起作用。请注意,大多数 OCR 应用程序将使用呈现的页面图像进行识别。即使 PDF 文件中没有图像,这也可能导致错误的识别结果。

i-net Software 已意识到这一普遍问题,目前正在开发 OCR 模块。它将提供一个选项,仅将识别应用于 PDF 文件中的图像。

关于image - 文字为图和图形为图的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45941373/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com