- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 iText5 来解析主要用希伯来语编写的 pdf。
为了提取文本,我使用 PdfTextExtractor.getTextFromPage
。我没有找到更改库中编码的方法,并且文本显示为乱码。
我尝试像这样修复编码:new String(pdfPage.getBytes(Charset1), Charset2)
。
我使用 Charset.availableCharsets()
浏览了所有可能的字符集,其中很少有给我希伯来语而不是乱码,但相反。
现在我想我可以逐行反转文本,但希伯来语是从右到左,数字和英语是从左到右。因此,如果我反转该行,它会修复希伯来语,但会破坏数字/英语。
示例:
PdfTextExtractor.getTextFromPage
返回 87.55 úåáééçúä ééåëéð ë"äñ
new String(text.getBytes(Charset.forName("ISO-8859-1")), Charset.forName("windows-1255"))
返回 87.55 ”
如果我反转这个,那么我会得到סה"כ נйכוй התחבות 55.78
该数字应该是 87.55
而不是 55.78
我发现的唯一解决方案是将其拆分为希伯来语和其余部分(英语/数字),并仅反转希伯来语部分,然后将其合并回来。
有没有更简单的解决方案?我觉得我在编码/RTL 方面遗漏了一些东西
最佳答案
I cant share the document I'm working on because it contains PII. But after searching Goole for pdf with gibberish, I found this document - the last paragraph of the document has exactly the same problem I have in my documents.
我只能分析给定的数据,因此在这种情况下只能分析链接的政府文件
提取为
ìëéî ìù "íééç éøåùéë" øôñá ,äéãôåìòôäá íéáø úåðåéòø ãåò àåöîì ïúéð
.ãåòå úéëåðéçä äééæëøîá ,567 'îò ,ïîöìæ éìéðå ì÷ðøô äéæø ,ïîæåø
在这种情况下,输出乱码的原因很简单:PDF声称这个乱码确实是那里的文本!
因此,问题不在于文本提取器,无论是 iText PdfTextExtractor
、Adobe Reader 复制和粘贴还是其中任何一个。相反,问题在于文档的内容存在谎言
本段使用的字体TT1有一个ToUnicode条目,具有以下映射:
28 beginbfchar
<0003> <0020>
<0005> <0022>
<000a> <0027>
<000f> <002C>
<0011> <002E>
<001d> <003A>
<0069> <00E1>
<006a> <00E0>
<006b> <00E2>
<006c> <00E4>
<006d> <00E3>
<006e> <00E5>
<006f> <00E7>
<0070> <00E9>
<0071> <00E8>
<0074> <00ED>
<0075> <00EC>
<0078> <00F1>
<0079> <00F3>
<007a> <00F2>
<007b> <00F4>
<007c> <00F6>
<007e> <00FA>
<007f> <00F9>
<0096> <00E6>
<0097> <00F8>
<00ab> <00F7>
<00d5> <00F0>
endbfchar
3 beginbfrange
<0018> <001a> <0035>
<0072> <0073> <00EA>
<0076> <0077> <00EE>
endbfrange
即所有代码都映射到 U+0020 和 U+00F9 之间的 Unicode 值,这是一个 Unicode 范围,其中显然不存在屏幕截图中看到的希伯来字符。更准确地说:除了空格、一些标点符号和数字(正确提取的)之外,这些值都在 U+00E0 和 U+00F9 之间的范围内,这是带有重音符号的拉丁字母及其类似位置的区域。
您提到在某些情况下您可以通过应用检索希伯来语文本
new String(text.getBytes(Charset.forName("ISO-8859-1")), Charset.forName("windows-1255"))
因此,PDF 创建工具可能已将 Windows-1255 代码页的映射放入 ToUnicode 映射中。这显然是错误的,ToUnicode 映射必须包含到 Unicode 的映射。
<小时/>话虽如此,即使 ToUnicode 映射是正确的,您仍然必须与反向希伯来语输出作斗争。这确实是 iText 5.x 文本提取的限制,它没有对 RTL 语言的特殊支持。因此,您必须自己更改结果字符串中字符的顺序。
在 this answer您将找到此类重新排序方法的示例。它适用于阿拉伯语脚本,采用 C# 语言,但它清楚地显示了如何继续。
关于java - 使用 iText 解析 PDF 文档后反转希伯来语或数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51822479/
fiddle :http://jsfiddle.net/rtucgv74/ 我正在尝试将第一个字符与 3 位数字匹配。所以下面的代码应该提醒f234。但反而返回 null ? 源代码: var reg
复制代码 代码如下: Dim strOk,strNo strOk = "12312321$12
我想找 {a number} / { a number } / {a string}模式。我可以得到number / number工作,但是当我添加 / string它不是。 我试图找到的例子: 15
我,我正在做一个模式正则表达式来检查字符串是否是: 数字.数字.数字,如下所示: 1.1.1 0.20.2 58.55541.5221 在java中我使用这个: private static Patt
我有一个字符串,我需要检查它是否在字符串的末尾包含一个数字/数字,并且需要将该数字/数字递增到字符串末尾 +1 我会得到下面的字符串 string2 = suppose_name_1 string3
我正在寻找一个正则表达式 (数字/数字),如(1/2) 数字必须是 1-3 位数字。我使用 Java。 我认为我的问题比正则表达式更深。我无法让这个工作 String s ="(1/15)";
谁能帮我理解为什么我在使用以下代码时会出现类型错误: function sumOfTwoNumbersInArray(a: [number, number]) { return a[0] +
我看到有些人过去也遇到过类似的问题,但他们似乎只是不同,所以解决方案也有所不同。所以这里是: 我正在尝试在 Google Apps 脚本中返回工作表的已知尺寸范围,如下所示: var myRange
我试图了解python中的正则表达式模块。我试图让我的程序从用户输入的一行文本中匹配以下模式: 8-13 之间的数字“/” 0-15 之间的数字 例如:8/2、11/13、10/9 等。 我想出的模式
简单地说,我当前正在开发的程序要求我拆分扫描仪输入(例如:2 个火腿和奶酪 5.5)。它应该读取杂货订单并将其分成三个数组。我应该使用 string.split 并能够将此输入分成三部分,而不管中间字
(number) & (-number) 是什么意思?我已经搜索过了,但无法找到含义 我想在 for 循环中使用 i & (-i),例如: for (i = 0; i 110000 .对于i没有高于
需要将图像ID设置为数字 var number = $(this).attr('rel'); number = parseInt(number); $('#carousel .slid
我有一个函数,我想确保它接受一个字符串,后跟一个数字。并且可选地,更多的字符串数字对。就像一个元组,但“无限”次: const fn = (...args: [string, number] | [s
我想复制“可用”输入数字的更改并将其添加或减去到“总计”中 如果此人将“可用”更改为“3”,则“总计”将变为“9”。 如果用户将“可用”更改为“5”,则“总计”将变为“11”。 $('#id1').b
我有一个与 R 中的断线相关的简单问题。 我正在尝试粘贴,但在获取(字符/数字)之间的断线时遇到问题。请注意,这些值包含在向量中(V1=81,V2=55,V3=25)我已经尝试过这段代码: cat(p
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我在 Typescript 中收到以下错误: Argument of type 'number[]' is not assignable to parameter of type 'number' 我
在本教程中,您将通过示例了解JavaScript 数字。 在JavaScript中,数字是基本数据类型。例如, const a = 3; const b = 3.13; 与其他一些编程语言不同
我在 MDN Reintroduction to JavaScript 上阅读JavaScript 数字只是浮点精度类型,JavaScript 中没有整数。然而 JavaScript 有两个函数,pa
我们在 Excel 中管理库存。我知道这有点过时,但我们正在发展商业公司,我们所有的钱都被困在业务上,没有钱投资 IT。 所以我想知道我可以用Excel自动完成产品编号的方式进行编程吗? 这是一个产品
我是一名优秀的程序员,十分优秀!