gpt4 book ai didi

PDF 数据提取给出符号/乱码?

转载 作者:行者123 更新时间:2023-12-01 11:03:56 31 4
gpt4 key购买 nike

我有一款名为 PDF2XL 的软件,它通常非常适合从 PDF 文件中提取数据表。我以前用它处理过数百个文件。

不过,这个文件给我的是乱码输出,我什至无法正确复制并粘贴到这个文本区域中。各种奇怪的 unicode。

如果我按正常方式复制并粘贴到 excel/记事本中,我会遇到同样的问题。

我认为这与 PDF 文件中困惑的字符编码 header 有关?我怎样才能改变这个?我在 Windows 上,没有可以编辑 PDF 的软件,所以如果我需要编辑/重新保存它,请推荐一个免费的软件来完成。

谢谢!

最佳答案

越来越多的 PDF 文件使用子集字体,这基本上是一种自定义编码。通常 PDF 中的字体描述符应该有一个 ToUnicode 表,以允许文本提取解码字体编码并返回正确的文本。

一些 PDF 制作者故意这样做是为了防止为财务报告等内容轻松提取 PDF 文本。如果只有一种字体,那么您可以手动解码该字体,但根据我的经验,我看到 PDF 具有多种随机编码,这使得自动解码几乎不可能。

测试这些类型的 PDF 的一种方法是在 Acrobat 中打开文件,选择一些文本,复制它,然后将其粘贴到记事本中。如果文本出现乱码,则 PDF 使用子集字体,您无能为力。如果 Acrobat 无法正确提取文本,则没有其他方法可以。它也可能是一页象形文字。

关于PDF 数据提取给出符号/乱码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8039423/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com