- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我尝试从 PDF 文件复制文本,但得到一些奇怪的字符。奇怪的是,Okular 可以识别文本,但不能识别 Sumatra PDF 或 Adobe,这三个应用程序都安装在 Windows 10 64 位中。为了更好地解释我的问题,这里是视频 https://streamable.com/sw1hc 。 “文本层解决方法文件”是我得到的一种解决方案。任何帮助是极大的赞赏。问候
最佳答案
简而言之:(原始)PDF 不包含 PDF 规范中描述的常规文本提取所需的信息。根据任务的具体性质,您可能会尝试将所需信息添加到现有文本对象和字体中,或者可能会选择 OCR。
PDF 规范 ISO 32000-1(以及类似的 ISO 32000-2)描述了一种使用 PDF 内部直接可用的信息将字符代码映射到 Unicode 值的算法。
它在其他堆栈溢出答案中经常被引用(参见 here 、 here 、 here 、 here 、 here 或 here ),所以我不会在这里引用它再次。
本质上,这是 Adobe Acrobat 在复制和粘贴过程中使用的算法,也是许多其他文本提取器使用的算法。
在不包含文本提取所需信息的 PDF 中,您最终会在算法中遇到这一点:
If these methods fail to produce a Unicode value, there is no way to determine what the character code represents in which case a conforming reader may choose a character code of their choosing.
这是文本提取实现的不同之处,它们尝试通过使用启发式方法或来自 PDF 之外的信息或将 OCR 应用于相关字形来确定匹配的 Unicode 值。
您尝试的不同程序返回了不同的结果表明
您的 PDF 不包含 PDF 规范中上述算法所需的信息,并且
这些程序使用的启发式方法有所不同,Okular 的启发式方法最适合您的文档。
有多种选择,或多或少可行,具体取决于您的具体情况:
向 PDF 来源询问包含用于文本提取的正确信息的版本。
除非您与该来源签订了契约(Contract),要求他们以机器可读的形式提供 PDF,或者来源有其他义务这样做,否则他们通常会拒绝...
对相关 PDF 应用 OCR。
根据 OCR 软件的质量和 PDF 中的字形,结果的质量可能存在问题;例如在您的“PDF 复制文本问题-文本层解决方案.pdf”中,标题“第 1 章:衍生证券”已被识别为“第 1 章:Deratve Securites”...
您可以尝试以交互方式将手动创建的 ToUnicode 映射添加到 PDF,例如如Tilman Hausherr所述在 his answer至"how to add unicode in truetype0font on pdfbox 2.0.0" .
根据您必须为其创建映射的不同字体的数量,这种方法可能很容易需要太多的时间和精力......
关于PDF复制文本问题: Weird Characters,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55478339/
int i; System.out.print("Please enter a string: "); String string_1 = input.nextLine(); System.out
我想要一个正则表达式来检查 a password must be eight characters including one uppercase letter, one special charac
在此先感谢您的帮助。 在命令行输入“example”时,Python 返回“example”。我在网上找不到任何东西来解释这一点。所有引用资料都在 print 命令的上下文中谈到字符串,我得到了所有关
我有 CSV 格式的数据,这些数据在字符编码方面被严重打乱,可能在不同的软件应用程序(LibreOffice Calc、Microsoft、Excel、Google Refine、自定义 PHP/My
我正在为 Latex 使用 Sublime Text,所以我需要使用特定的编码。但是,在某些情况下,当我粘贴从不同程序(大多数情况下为单词/浏览器)复制的文本时,我收到以下消息: "Not all c
在 flutter 中,我使用了一个php文件,该文件从数据库查询返回json响应,但是当我尝试解码json时,出现此错误: E/flutter ( 8294): [ERROR:flutter/lib
我在 Flutter 项目中遇到异常。错误如下所示: Exception has occurred. FormatException (FormatException: Unexpected char
这个问题已经有答案了: Why doesn't my compare work between char and int in Java? (4 个回答) 已关闭 3 年前。 我试图在我的代码中找出
我在 Flutter 项目中遇到异常。错误如下所示: Exception has occurred. FormatException (FormatException: Unexpected char
我是 python 新手,需要一些帮助。我应该编写一个脚本,从键盘读取单词,直到输入单词 999。对于除 999 之外的每个单词,报告该单词是否有效。如果单词的第一个字符等于最后一个字符,则该单词有效
我正在实现自己的词法分析器,并且刚刚了解了 C# 如何处理字 rune 字:https://msdn.microsoft.com/en-us/library/aa691087(v=vs.71).asp
我有这个字符串: var test = "toto@test.com"; 我想用空值替换“@”字符后的所有字符。我想得到这个字符串: var test = "toto" 最佳答案 试试这个: test
我将数据库从 sqlite 更改为 postgresql 以用于我网站的生产,但出现此错误。当我在本地使用 sqlite 时,它没有出现这个错误。使用 Django。 ProgrammingErr
我正在为我的实验表制作凯撒密码,并使其能够加密 3 代入(凯撒密码),这是练习的重点。但是有一件事困扰着我。首先,如果我输入 3 以外的字符,则有一个尾随字符。例如,输入“恶意软件”,然后输入 2 作
遵循 this question 中的逻辑,以下代码应该有效: #include int main(){ printf("%c", '\0101'); return 0; } 然而,
我在处理一段代码时遇到错误: Too many characters in character literal error 使用 C# 和 switch 语句遍历字符串缓冲区并读取标记,但在这一行中出
给定一个元素,其值为: Distrib = SU & Prem <> 0 我要转<或 >进入 <或 >因为下游应用程序需要
从表面上看,他们似乎都在做同样的事情。但似乎是后者as(,"character")更强大。 作为示例,请考虑以下内容: library(rvest) temp % html_node("div p")
我刚开始使用python,所以很可能只是在做一些愚蠢的事情。我正在从表中读取数据,需要将它们放入txt文件的列中。我无法说服我的代码创建新行。 这是我的代码- file = open("test_m.
在尝试刷新我的项目的 Fortran 90 知识时,我在使用内部文件时遇到了一些奇怪的情况。考虑示例代码: ! ---- internal_file_confusion.f90 ---- progra
我是一名优秀的程序员,十分优秀!