gpt4 book ai didi

java - 如何使用 iText 将越南语文本导出为 PDF

转载 作者:行者123 更新时间:2023-11-30 09:11:28 25 4
gpt4 key购买 nike

我在尝试使用 iText 将越南语文档导出为 PDF 时遇到问题。我像这样将越南语单词放入 .xml 文件中

<td fontfamily="Helvetica" fontstyle="0" fontsize="9" align="0" colspan="48" lineoccupied="1">T\u1ED5 ch\u1EE9c tham gia</td>

然后让 java 从 xml 文件中获取短语并使用此方法将其转换为 Unicode:

    public String convertToUnicode(String s) {
int i = 0, len = s.length();
char c;
StringBuffer sb = new StringBuffer(len);
try {
while (i < len) {
c = s.charAt(i++);
if (c == '\\') {
if (i < len) {
c = s.charAt(i++);
if (c == 'u') {
if (Character.digit(s.charAt(i), 16) != -1
&& Character.digit(s.charAt(i + 1), 16) != -1
&& Character.digit(s.charAt(i + 2), 16) != -1
&& Character.digit(s.charAt(i + 3), 16) != -1) {
if (s.substring(i).length() >= 4) {
c = (char) Integer.parseInt(s.substring(i, i + 4), 16);
i += 4;
} else {
sb.append('\\');
}
} else {
sb.append('\\');
}
} // add other cases here as desired...
}
} // fall through: \ escapes itself, quotes any character but u
sb.append(c);
}
} catch (Exception e) {
System.out.println("Error Generate PDF :: " + e.getStackTrace().toString());
return s;
}
return sb.toString();
}

之后,将字符串导出为 PDF - 编码为 UTF-8。但是程序无法显示越南字符 '\u1ED5' 和 '\u1EE9'输出变为“T chc tham gia”你能告诉我如何解决这个问题吗?谢谢:)

最佳答案

有 3 个 XML Worker examples在官方 iText 网站上涉及亚洲语言。他们解析包含中文字符的 XHTML 文件,但应该很容易将它们改编成越南语示例。

您可以在此处找到要解析的 HTML 文件:

两个文件都包含以下文本:

長空 (Broken Sword), 秦王殘劍 (Flying Snow), 飛雪 (Moon), 如月 (the King), and 秦王 (Sky).

在第一种情况下,字体是使用 CSS 定义的:

<span style="font-size:12.0pt; font-family:MS Mincho">長空</span>

在第二种情况下,没有定义特定的字体:

<body><p>長空 (Broken Sword), 秦王殘劍 (Flying Snow), 飛雪 (Moon), 如月 (the King), and 秦王 (Sky).</p></body>

这些文件包含 UTF-8 字符,因此我们将像这样解析它们:

XMLWorkerHelper.getInstance().parseXHtml(writer, document,
new FileInputStream(HTML), Charset.forName("UTF-8"));

您首先需要的是支持越南字符的字体。这是 iText 无法帮助您的事情。在您的 HTML 文件中,您已经定义了 Helvetica,但这是一种标准的 Type1 字体,在使用 iText 时永远不会嵌入,并且不知道如何绘制越南字形。这永远行不通。

第一个例子D07_ParseHtmlAsian将自动搜索名为 MS Mincho 的字体。如果它找到该字体(例如因为您的 Windows 字体目录中有 msmincho.ttc),该字体将显示在您的 PDF 中。参见 hero.pdf .如果它没有找到具有该名称的字体,那么字形将不可见,因为您没有为这些字形提供任何字体程序。

第二个例子D07bis_ParseHtmlAsian提供了一种解决方法,以防您在任何地方都没有 MS Mincho。在这种情况下,您必须使用 XMLWorkerFontProvider 并注册一种可以代替 MS Mincho 使用的字体。例如:我们使用存储在文件 cfmingeb.ttf 中的字体并指定别名 MS Mincho:

XMLWorkerFontProvider fontProvider = new XMLWorkerFontProvider(XMLWorkerFontProvider.DONTLOOKFORFONTS);
fontProvider.register("resources/fonts/cfmingeb.ttf", "MS Mincho");

生成的文件 asian.pdf和我们期待的略有不同,但现在我们至少可以看到汉字了。

在第三个例子中,HTML 文件没有告诉我们任何关于需要使用的字体的信息。我们将使用 CSS 定义字体,如下所示:

CSSResolver cssResolver = new StyleAttrCSSResolver();
CssFile cssFile = XMLWorkerHelper.getCSS(new ByteArrayInputStream("body {font-family:tsc fming s tt}".getBytes()));
cssResolver.addCss(cssFile);

现在,正文中的所有文本都将使用字体 TSC FMing S TT(存储在文件 cfmingeb.ttf 中)。您可以在生成的 PDF 中看到差异 asian2.pdf .

关于java - 如何使用 iText 将越南语文本导出为 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22085316/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com