PDF 文本提取问题 - 字体/大小写不一致-6ren

PDF 文本提取问题 - 字体/大小写不一致

转载作者：行者123 更新时间：2023-12-05 04:18:07

25

4

我正在尝试从 pdf 书中提取文本并继续运行一个问题，即复制的文本部分在粘贴到文本文档时无法保留正确的大写属性。我有权复制这本书，也有使用所有必要字体的许可。起初我以为问题是由未嵌入的字体引起的，但我检查了一下，所有字体似乎都是嵌入的子集。在 pdf 中，使用了 100 多种具有以下属性之一的字体:

TrueType 编码:AnsiTrueType (CID) 编码:Identity-H类型 1 (CID) 编码:Identity-H类型 1 编码:自定义

书中的语言包括英语、德语、西类牙语和意大利语。在德国，大写是绝对重要的。与小写字母相比，它更容易丢失大写字母的属性。

错误示例为:WELD -> weld

我真的不知道该怎么办。我已经要求这本书的所有者嵌入他作为子集完成的字体，但问题仍然存在。我曾尝试将 pdf 文件保存为后记，然后通过蒸馏器运行它，这正确地解决了大部分问题，但在某些情况下导致文本被不同的字符或数字替换为头骨。我知道 CID 字体可能是导致此问题的原因，但我遇到过非 CID 字体产生相同结果的实例。

是什么导致了这个问题？字体是子集还是完全嵌入？有没有更好的方法将 native 文件 (InDesign) 保存为 pdf，以便更好地提取字体？它是否与非 unicode 字体有关？如果是，是否有不需要所有者选择不同字体的替代方案？

非常感谢任何和所有帮助。

最佳答案

这确实很有趣。 OP 提供的示例 PDF 确实明显包含大写字符，其中一些仅在大写行中，一些在混合行中，Adobe Reader 将其提取为小写字符。

你想知道

What could be causing this issue?

作为一个例子，让我们看看 Pelle Più bella

在页面内容中，该短语实际上看起来像大写字母的视觉表示:

/T1_0 1 Tf
-0.025 Tc 12 0 0 12 379.5354 554.8809 Tm
(PELLE PI\331 BELLA)Tj

查看使用的字体 T1_0(DIN-Bold 子集)，我们看到它声称使用 WinAnsiEncoding，这也表明对这些字符代码的解释页面流为大写字母

但是字体还有一个ToUnicode映射，这个映射映射

<41> <0061> — 'A' → a
<42> <0062> — 'B' → b
<43> <0043> — 'C' → C
<44> <0044> — 'D' → D
<45> <0065> — 'E' → e
<49> <0069> — 'I' → i
<4C> <006C> — 'L' → l
<4D> <004D> — 'M' → M
<4E> <006E> — 'N' → n
<50> <0050> — 'P' → P
<52> <0072> — 'R' → r
<53> <0053> — 'S' → S
<54> <0074> — 'T' → t
<D9> <00F9> — 'Ù' → ù

(我只提取了WinAnsiEncoding中代表大写字母的字符编码的映射。)

Is there a better way to save the native file (InDesign) to a pdf that will allow for better font extraction?

抱歉，我不太喜欢 InDesign。但该软件来自 Adobe，如果这是 InDesign 中的错误或它导出为 PDF，我会感到惊讶。会不会是 InDesign 文件中的某些信息将 PELLE PIÙ BELLA 标记为 Pelle Più bella，InDesign 然后在 PDF 导出中将其转换为此 ToUnicode 映射？

Does it have to do with non-unicode fonts and if so is there an alternative that does not require the owner to select different fonts?

如果您的示例文档有三种字体，它们都带有 Encoding 条目 WinAnsiEncoding， 它们都是嵌入的子集，但只有两个具有这样的有趣的 ToUnicode 映射，DIN-Medium 和 DIN-Bold，而 Helvetica 没有 ToUnicode 映射。所以它在某种程度上与字体有关。具体如何我不能说。

解决方法，如果您的示例文档是删除字体字典中的 ToUnicode 映射。

例如，使用 Java 和 iText 库，您可以这样做:

PdfReader reader = new PdfReader(INPUT);
for (int i = 1; i <= reader.getXrefSize(); i++)
{
    PdfObject obj = reader.getPdfObject(i);
    if (obj != null && obj.isDictionary())
    {
        PdfDictionary dic = (PdfDictionary) obj;
        if (PdfName.FONT.equals(dic.getAsName(PdfName.TYPE)))
        {
            dic.remove(PdfName.TOUNICODE);
        }
    }
}
PdfStamper stamper = new PdfStamper(reader, new FileOutputStream(OUTPUT));
stamper.close();
reader.close();

经过此操作后，Adobe Reader 文本提取结果为

PELLE PIÙ BELLA

这显然只适用于示例文档中的情况。

如果在您的其他文档中混合了多种字体，其中一些需要它们各自的 ToUnicode 映射来提取文本，而另一些则类似于上面的麻烦字体，您可能需要添加一些额外的条件Java 代码仅删除错误字体定义中的 map 。

关于PDF 文本提取问题 - 字体/大小写不一致，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17737776/

25

4

0

文章推荐： ruby-on-rails - 如何为以下查询编写 Rspec 规范

文章推荐： C# - 从 ContextMenuStrip 和 "Smart Events"动态添加和删除项目

文章推荐： carrierwave - Sidekiq 一遍又一遍地重复同样的工作

java - 如何使用 Ruby、PHP 或 Java 解析/提取/提取 ASP.net 网站内容？
我正在做一个业余爱好项目，使用 Ruby、PHP 或 Java 来抓取 ASP.net 网站的内容。例如，如果网站 url“www.myaspnet.com/home.aspx”。我想从 home.a
r - 提取/之间的字符串
如果我有这些字符串： mystrings <- c("X2/D2/F4", "X10/D9/F4", "X3/D22/F4",
regex - 提取 | 之间的最后一个单词|
我有以下数据集 > head(names$SAMPLE_ID) [1] "Bacteria|Proteobacteria|Gammaproteobacteria|Pseudomonadales|Mor
grails - 提取: 'join'被忽略
设置: 3个域类A，B和C。A和B在插件中。 C在依赖于此插件的应用程序中。 class A{ B b static mapping = { b fetch: 'joi
JAVA StAX 提取
我不知道如何提取 XML 文件中的开始标记元素名称。我很接近〜意味着没有错误，我正在获取标签名称，但我正在获取标签名称加上信息。我得到的是: {http://www.publishing.org}au
regex - 提取 "?"之后的文本
我有一个字符串 x <- "Name of the Student? Michael Sneider" 我想从中提取“Michael Sneider”。我用过: str_extract_all(x,
Java - 提取 [* ... *] 之间的所有内容
我有一个如下所示的文本文件: [* content I want *] [ more content ] 我想读取该文件并能够提取我想要的内容。我能做的最好的事情如下，但它会返回 [更多内容] 请注意
Twig 提取 FOR 循环变量
假设我有一个项目集合 $collection = array( 'item1' => array( 'post' => $post, 'ca
java - 读取一个文本文件并写入多个文本文件以进行过滤/提取
我正在寻找一种过滤文本文件的方法。我有许多文件夹名称，其中包含许多文本文件，文本文件有几个没有人员，每个人员有 10 个群集/组(我在这里只显示了 3 个)。但是每个组/簇可能包含几个原语(我在这里展
python - Unicode 提取
我已经编写了一个从某个网页中提取网址的代码，我面临的问题是它不会以网页上相同的方式提取网址，我的意思是如果该网址位于某些网页中法语，它不会按原样提取它。我该如何解决这个问题？ import reque
c# - 提取 ZipFile
如何在 C# 中提取 ZipFile？(ZipFile 是包含文件和目录) 最佳答案为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。来自 here
c++ - 提取[]之间内容的正则表达式
我有一个表达: [training_width]:lofmimics 我要提取[]之间的内容，在上面的例子中我要 training_width 我试过以下方法: QRegularExpression
bash - 提取 "$@"中最后一个参数之前的参数
我正在尝试创建一个 Bash 脚本，该脚本将从命令行给出的最后一个参数提取到一个变量中以供其他地方使用。这是我正在处理的脚本: #!/bin/bash # compact - archive and
Javascript 提取 *.com
我正在寻找一个 JavaScript 函数/正则表达式来从 URI 中提取 *.com...(在客户端完成) 它应该适用于以下情况: siphone.com = siphone.com qwr.sip
python - BeautifulSoup 提取
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
Python JSON 提取
编辑:添加了实际的 JSON 对象和代码以供审查我有这种格式的 JSON(只是这种层次结构，假设 JSON 正常工作) {u'kind': u'calendar#events', u'default
python - 提取标签的内容
我已经编写了代码来使用 BeautifulSoup 提取一本书的 url 和标题来自页面。但它并没有在 > 之间提取惊人的 super 科学故事 1930 年 4 月这本书的名字。和标签。如何提
Java，提取$符号之间的单词
使用 Java，我想提取美元符号 $ 之间的单词。例如: String = " this is first attribute $color$. this is the second attribu
string - 提取.txt文件中以00开头的数字
您好，我正在尝试找到一种方法来确定字符串中的常量，然后提取该常量左侧的一定数量的字符。例如-我有一个 .txt 文件，在那个文件的某处有数字 00nnn 数字的例子是 00234 00765 ...
php操作（删除,提取,增加）zip文件方法详解
php读取zip文件(删除文件,提取文件,增加文件)实例从zip压缩文件中提取文件复制代码代码如下: <?php /* php 从zip压缩文件

首页

博学

6Ren·AI

商城

PDF 文本提取问题 - 字体/大小写不一致