java - 使用 PDFBOX 以正确的字符呈现形式书写阿拉伯语而不被分离-6ren

java - 使用 PDFBOX 以正确的字符呈现形式书写阿拉伯语而不被分离

转载作者：搜寻专家更新时间：2023-11-01 02:20:05

26

4

我正在尝试使用 PDFBox Apache 生成包含阿拉伯语文本的 PDF，但文本生成为单独的字符，因为 Apache 将给定的阿拉伯语字符串解析为一系列通用的“官方”Unicode 字符，等同于孤立形式阿拉伯字符。

举个例子:
以 PDF 格式写入的目标文本“应预期在 PDF 文件中输出”-> جمل٩ بالعربي
我在 PDF 文件中得到了什么 ->

我尝试了一些方法，但没有用，下面是其中一些:
1. 将字符串转换为比特流并尝试提取正确的值
2. 使用 UTF-8 && UTF-16 处理字符串字节序列并从中提取值

有一些方法似乎很有希望获得每个字符的值“Unicode”但是它生成一般的“官方 Unicode”这就是我的意思

System.out.println( Integer.toHexString( (int)(new String("كلمة").charAt(1))) );

输出是 644，但 fee0 是预期的输出，因为这个字符在中间，从那时起我应该得到中间的 Unicode fee0

所以我想要的是一些生成正确 Unicode 的方法，而不仅仅是官方的

下面链接第一个表最左边一列代表通用Unicode
Arabic Unicode Tables Wikipedia

最佳答案

注意事项:

此答案中的示例代码可能已过时，请参阅 h q's answer对于工作示例代码

首先我会感谢 Tilman Hausherr和 M.Prokhorov向我展示了使使用 PDFBox Apache 编写阿拉伯语成为可能的库。

本回答将分为两部分:

下载库并安装
如何使用图书馆

下载库并安装

我们将使用 ICU图书馆。
ICU 代表 Unicode 国际组件，它是一套成熟的、广泛使用的 C/C++ 和 Java 库，为软件应用程序提供 Unicode 和全局化支持。 ICU 具有广泛的可移植性，并在所有平台上以及在 C/C++ 和 Java 软件之间为应用程序提供相同的结果。

要下载库，请转到 here 的下载页面.
选择最新版本的ICU4J，如下图所示。

您将转到另一个页面，您会发现一个框，其中包含所需组件的直接链接。继续并下载三个文件，您将在下一张图片中找到突出显示的文件。

icu4j-docs.jar
icu4j-src.jar
icu4j.jar

在Netbeans IDE中创建和添加库的说明如下

导航到工具栏并单击工具
选择图书馆
在左下角您会找到新的库按钮创建您的
导航到您在库列表中创建的库
单击它并像这样添加 jar 文件夹
在类路径中添加icu4j.jar
在源中添加icu4j-src.jar
在Javadoc中添加icu4j-docs.jar
从最右边查看您打开的项目
展开你想在其中使用库的项目
右键单击库文件夹并选择添加库
最后选择您刚刚创建的库。

现在您可以使用该库了，只需导入您想要的内容即可

import com.ibm.icu.What_You_Want_To_Import;

如何使用图书馆

使用 ArabicShaping 类并反转字符串，我们可以编写正确的附加阿拉伯语 LINE
这是代码 注意下面代码中的注释

import com.ibm.icu.text.ArabicShaping;
import com.ibm.icu.text.ArabicShapingException;
import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.*;

public class Main {
    public static void main(String[] args) throws IOException , ArabicShapingException
{
        File f = new File("Arabic Font File of format.ttf");
        PDDocument doc = new PDDocument();
        PDPage Page = new PDPage();
        doc.addPage(Page);
        PDPageContentStream Writer = new PDPageContentStream(doc, Page);
        Writer.beginText();
        Writer.setFont(PDType0Font.load(doc, f), 20);
        Writer.newLineAtOffset(0, 700);
        //The Trick in the next Line of Code But Here is some few Notes first  
        //We have to reverse the string because PDFBox is Writting from the left but Arabic is RTL Language  
        //The output will be perfect except every line will be justified to the left "It's not hard to resolve this"
        // So we have to write arabic string to pdf line by line..It will be like this
        String s ="جملة بالعربي لتجربة الكلاس اللذي يساعد علي وصل الحروف بشكل صحيح";
        Writer.showText(new StringBuilder(new ArabicShaping(reverseNumbersInString(ArabicShaping.LETTERS_SHAPE).shape(s))).reverse().toString());
        // Note the previous line of code throws ArabicShapingExcpetion 
        Writer.endText();
        Writer.close();
        doc.save(new File("File_Test.pdf"));
        doc.close();
    }
}

这是输出

我希望我已经了解了所有内容。

更新:反转后确保再次反转数字以获得相同的正确数字
这里有几个函数可以提供帮助

public static boolean isInt(String Input)
{
    try{Integer.parseInt(Input);return true;}
    catch(NumberFormatException e){return false;}
}
public static String reverseNumbersInString(String Input)
{
    char[] Separated = Input.toCharArray();int i = 0;
    String Result = "",Hold = "";
    for(;i<Separated.length;i++ )
    {
        if(isInt(Separated[i]+"") == true)
        {
            while(i < Separated.length && (isInt(Separated[i]+"") == true ||  Separated[i] == '.' ||  Separated[i] == '-'))
            {
                Hold += Separated[i];
                i++;
            }
            Result+=reverse(Hold);
            Hold="";
        }
        else{Result+=Separated[i];}
    }
    return Result;
}

关于java - 使用 PDFBOX 以正确的字符呈现形式书写阿拉伯语而不被分离，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48284888/

26

4

0

文章推荐： java - 带有 Spock Stub 的泛型

文章推荐： javascript - 括号不匹配 : a quick way to find them?

pdfbox - PDFBox 2.0转图片，但是找不到 "org.apache.pdfbox.tools.imageio"
在 apache PDFBox 网站上，http://pdfbox.apache.org/2.0/migration.html ,PDF 渲染示例。 ImageIOUtil.writeImage(bi
pdfbox - Apache PDFBox 删除字符之间的空格
我们正在使用 PDFBox 从 PDF 中提取文本。某些 PDF 的文本无法正确提取。下图显示了 PDF 中的一部分作为图像: 文本提取后，我们得到以下文本: 3, 8 5 EU R 1 Nett
pdfbox - Apache PDFBOX 中的文本替换为图像
任何人都可以帮我了解如何使用 Apache PDFBOX 将文本替换为图像吗？最佳答案 import java.io.File; import java.io.IOException;
pdfbox - LucenePDFDocument 从 pdfbox 消失了吗？
我正在升级我的项目中的库并将 pdfbox 从 0.6.7 升级到 1.6.0 版，但找不到 LucenePDFDocument 类。 Apache 页面上的文档/教程中仍然提到了该类。有任何想法吗？
pdfbox - 如何在 Apache PDfBox 中设置页面缩放选项
在我的应用程序中，我使用 Apache PDFBox 来呈现 PDF 文件并进行静音打印。 PDFBox 可以很好地渲染 PFD，但我遇到了问题缩放来到图片。在这里我想在打印 PDF 之前设置页
pdfbox - 使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗？
我正在使用使用 pdfbox 2.0.3 的 Apache Tika 1.14。我用它来提取文件的文本内容。在生产模式下处理许多文件时，我会记录许多如下语句: WARN o.a.p.pdmodel
pdfbox - 使用 PDFBox 将 PDF 文件转换为图像
有人能给我一个关于如何使用 Apache PDFBox 将 PDF 文件转换为不同图像的示例吗(PDF 的每一页一个图像)？最佳答案 1.8.* 版本的解决方案: PDDocument docume
pdfbox - 使用 PDFBOX 根据 PDF 中的输出识别文本
我正在使用 PDF BOX 获取 PDF 文本的颜色信息。我可以使用以下代码获得输出。但是我的疑问是 StrokingColor 代表什么，Non stroking color 代表什么。基于此，我将
pdfbox - 了解 PDFBox 2.0 中字体的加载
我终于成功地让 PDFBox 打印我的 unicodes。但现在，我想了解我提出的解决方案。下面的代码可以运行并将 ≥ 打印到页面上。有两件事不起作用: 改变PDType0Font.load(doc
pdfbox - 使用 PDFBOX 根据 PDF 中的输出识别文本
我正在使用 PDF BOX 获取 PDF 文本的颜色信息。我可以使用以下代码获得输出。但是我的疑问是 StrokingColor 代表什么，Non stroking color 代表什么。基于此，我将
pdfbox - 如何使用 Apache PDFBox 生成 Pdf 发票
我的项目要求在 Apache pdfbox api 的帮助下生成发票。截至目前，我可以在生成的 pdf 中插入图像、文本，但在生成表格时发现困难。我什至找不到单个示例模板。如果有人有请提供链接。注意
java - pdfbox PDFBox 2.0.0 获取字段位置
我如何使用 PDFBox 2.0.0 获取字段位置？在 Pdfbox 1.8.11 中，我是这样工作的: String formTemplate = "Template.pdf
pdfbox - 字体 ArialMT 中使用的 OpenType 布局表未在 PDFBox 中实现
我在我们的一个项目中使用了 CMS Magnolia。在日志文件中有很多错误，例如: 字体 ArialMT 中使用的 OpenType 布局表未在 PDFBox 中实现这对 PDF 有什么影响？可以
java - 从 PDFBox 1.x 迁移到 PDFBox 2
我一直在使用 PDFBox 1.8 来处理 pdf。现在我计划转向 PDFBox 2.0-RC-2。我在迁移时遇到一些问题。在 PDFBox 1.8 中，我曾经使用以下方法从 PDPage 获取 t
java - PDFbox 1.7.0 - 如何在使用 PDFBox 添加新图像的同时保留现有图像？
我正在使用 PDFBox 1.7.0(由于生产服务器中的版本较旧，我无法选择该版本)。我正在尝试将图像添加到已有 Logo 的现有 PDF 中。当我添加新图像时，旧图像就像被替换一样消失了。 // U
pdfbox - 如何在使用 Apache PDFBox 编写新 PDF 时将交互式 PDF 表单设置为只读模式？
我正在使用 Apache PDFBox 库在可填写的 PDF 表格 (AcroFrom) 中填写信息。完成信息填写后，我需要编写一个新的PDF文件(不可编辑格式)。我尝试了 setReadOnly
pdfbox - 登录 Apache PDFBox 2.0 时出现 "You did not close a PDF Document"
在对 PDDocument 进行数字签名后，我已关闭 Apache PDFBox 中的 PDDocument。我收到警告:当我关闭我的实例时，You did not close PDF Documen
pdfbox - java.lang.NoClassDefFoundError : Could not initialize class org. apache.pdfbox.pdmodel.font.PDFont
我在 wildfly 模块中使用 Apache Tika(tika-app 1.17)。当我开始提取 PDF 时，它总是抛出错误: java.lang.NoClassDefFoundError: Co
java - 如何使用 groovy 中的 pdfbox 进行编译(无法解析类 org.apache.pdfbox.util.Splitter )？
我尝试使用 pdfbox 并使用 groovy 进行编译，但我不知道这是我使用的代码 groovyc main.groovy 但不起作用，请帮助我 this.class.classLoader.ro
pdfbox - java.lang.NoClassDefFoundError : Could not initialize class org. apache.pdfbox.pdmodel.font.PDFont
我在 wildfly 模块中使用 Apache Tika(tika-app 1.17)。当我开始提取 PDF 时，它总是抛出错误: java.lang.NoClassDefFoundError: Co

首页

博学

6Ren·AI

商城