java - 波斯语文档的 PDFBOX-6ren

java - 波斯语文档的 PDFBOX

转载作者：行者123 更新时间：2023-11-30 10:12:04

25

4

我想使用 pdfBox 从 Persian pdf 文件中提取测试，但它为所有波斯字符返回 "?"(它正确返回同一文档中的 Latin 词)。

我该如何解决？有什么建议吗？

最佳答案

遗憾的是，所提供的文件将波斯语文本作为 vector 图形，而不是字体文本，因此无法提取。您必须为此使用 OCR。

另见 text extraction FAQ :

How come I am not getting any text from the PDF document?

Text extraction from a pdf document is a complicated task and there are many factors involved that effect the possibility and accuracy of text extraction. It would be helpful to the PDFBox team if you could try a couple things.

Open the PDF in Acrobat and try to extract text from there. If Acrobat can extract text then PDFBox should be able to as well and it is a bug if it cannot. If Acrobat cannot extract text then PDFBox ‘probably’ cannot either.

It might really be an image instead of text. Some PDF documents are just images that have been scanned in. You can tell by using the selection tool in Acrobat, if you can’t select any text then it is probably an image.

关于java - 波斯语文档的 PDFBOX，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52070656/

25

4

0

文章推荐： swift - 使用 Swift 而不是 Objective-C 从解析数据中保存对象

文章推荐： javascript - 如何使用 Jquery 创建带有复选框的 html 按钮？

文章推荐： JavaScript:如何将用户输入与数组进行比较？

文章推荐： JAVA API 未返回任何结果。在服务器上运行的 SQL 查询确实

java - 的意思？ java 语
这个问题已经有答案了: What is the Java ?: operator called and what does it do? (17 个回答) 已关闭 8 年前。 ltVal = node
java - 我如何嵌套这个条件语句？ java 语
我是一名 Java 学生，我在嵌套该程序的条件语句时遇到问题 Exercise CozaLozaWoza (Loop & Condition): Write a program called Coza
java - 如何将输入句子的每个字母大写？ ( java 语)
首先，我想给出用户想要留下的句子的数量，当他的写作结束时，我的代码开始将每个单词的第一个字母大写(在 Java 中)。 import java.util.Scanner; public class I
java - 有没有办法在基类中使用重写函数？ ( java 语)
我尝试在基类中实现一个函数，该函数使用子函数(defiend 作为基类中的抽象函数)。我认为一个例子可以最好地说明这个问题。 abstract class Animal{ public void
java - 如何重复一段文本中的每个单独字母？ java 语
就像在口吃中一样，如果文本为“dean”并且乘数为 3，则结果将是“dddeeeaaannn”。 public static void repeatLetters() { String text
java - 如何使这个二叉搜索树工作？？？ ( java 语)
public void insert(int data) { if (root == null) root = new AVLNode(data); else {
java - 为什么XPATH无法访问该标签的值？ ( java 语)
我是 XPATH 的新手，并且遇到以下问题: 我有以下代码片段，但似乎无法按我的预期工作: String XML = cdataContent;
java - 有符号整数类型的签名存储在哪里？ ( java 语)
例如，Java 数据类型字节将数据从 -128 到 127 存储在单个字节中。为了能够区分 - 1 到 -128 从 0 到 127 将需要额外的数据，这些数据将采用数据类型覆盖其分配的存储空间。不可
java - 如何检查字符串是否包含指定字符以外的字符。 ( java 语)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9
java - 如何限制排列的生成？ ( java 语)
Dataset: P1: Lion, Snow, Chair P2: Min: 0, Max: 28 P3: Min: 34, Max is 39. 我的程序以一系列数组列表的形式提供上述数据集(P
java - 如何模拟不同的网络场景？ ( java 语)
我正在构建一个应该 24/7 全天候运行的客户端服务器应用程序。应用程序指定检测网络故障(使用心跳)并尽快重新连接到服务器。我做的第一个测试只是停止客户端或服务器，然后重新启动，一切正常。我想知道是
java - 这个的编译时类型是什么？ ( java 语)
我怀疑它是编写它的类的类型，但我不是 100% 确定，有人可以证实我的怀疑并可能提供对定义此行为的 Java 语言规范的引用吗？假设类 A 有一个方法 a()，它在其主体中使用了 this 关键字，
语: how to enforce an interface on a template function
我已经在谷歌上搜索了两个小时，但没有成功。如果我有一个模板函数并且我想在模板类型上强制执行一个接口(interface)，我该怎么做？例如。 void doStuff(T)(bool param)
java - 使用不带replaceAll()的循环打印不带元音的UI； java 语
我正在尝试获取用户输入并对其进行修改，以便打印不带任何元音的字符串。我已经能够使用以下代码成功完成此操作。 Scanner in = new Scanner(System.in); Syste
java - 线程.sleep(); java 语
每当我使用 Thread.sleep(); 时在 do while 循环中，提示告诉我，“在循环中调用 Thread.sleep 可能会导致性能问题。”我从许多其他网站和书籍上听到过这一点。我可以用什
java - 生成一个范围内的随机数。无溢出。 java 语
请不要将其视为以下内容的重复项而将其忽略: How to generate random positive and negative numbers in java 我需要使用带有种子的随机数生成器。
java - 如何选择范围内的随机数，但加权到该范围的一部分？ ( java 语)
我想在一个数字范围内选择随机数，但权重偏向该范围的一部分。例如: 选择1-10之间的随机数对其进行加权，使 1-5 比 6-10 的可能性高 20% 这可能吗？我该怎么做？最佳答案这取决于您希望
java - 如何初始化 TIME 数组？ java 语
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
java - 如何更改或设置新的 Activity 启动器应用程序？ ( java 语)
我有一个付款 Activity 和启动 Activity ，它在用户购买后显示内容应用程序。付款 Activity 是Manifest.xml中的默认启动器，我想将启动器 Activity 设置为启动
arrays - 语: Construct an array from a pointer and length
我有一个指针和长度。如何从他们那里得到一个动态数组？最佳答案设ptr是一个指针，len是一个长度，那么很容易如下: ptr[0..len] 请注意，这不会复制数组，而是就地使用数据。如果要复制数

首页

博学

6Ren·AI

商城

java - 波斯语文档的 PDFBOX