gpt4 book ai didi

pdf - 我在哪里可以将 Identity-H 编码的字符映射到 ASCII 或 Unicode 字符?

转载 作者:行者123 更新时间:2023-12-04 00:06:07 28 4
gpt4 key购买 nike

我有一个由第三方生成的 PDF。我试图从中取出文本,但都没有 pdf2text也不会复制和粘贴导致可读文本。在对输出(两个中的任何一个)稍加挖掘后,我发现屏幕上的每个字符都由三个字节组成。例如,“A”是字节 ef , 81 , 和 81 .查看 PDF 上的元数据,它声称以 Identity-H 编码,因此我假设我看到的是一组以 Identity-H 编码的字符。我有一个基于我已有的文档的部分映射,但我想制作一个更完整的映射。为此,我需要类似于 Identity-H 的 ASCII 表。

最佳答案

并非总是可以从 PDF 中提取文本,尤其是当 mkl 指出缺少/ToUnicode 映射时。

如果无法从 Acrobat 剪切和粘贴正确的文本,那么您自己提取文本的机会将很小。如果 Acrobat 无法提取它,那么任何其他工具都不太可能正确提取文本。

如果您手动创建一个编码表,那么您可以使用它来将提取的字符重新映射到它们的正确值,但这很可能只适用于这个文档。

通常这是故意这样做的。我曾看到文档为点中的每种字体随机重新映射不同的字符。它被用作一种混淆形式,从这些 PDF 中提取文本的唯一真正方法是求助于 OCR。有许多财务报告使用这种技巧来阻止人们提取他们的数据。

此外,Identity-H 只是从 0x0000 到 0xFFFF 的所有字符的 1:1 字符映射。 IE。身份是身份映射。

您真正的问题是此 PDF 中缺少/ToUnicode 条目。我怀疑您的 PDF 中还有一个嵌入式 CMap,它解释了为什么每个字符可能有 3 个字节。

关于pdf - 我在哪里可以将 Identity-H 编码的字符映射到 ASCII 或 Unicode 字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17193839/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com