java - 带有德语字母表的 Html 到 Pdf-6ren

java - 带有德语字母表的 Html 到 Pdf

转载作者：行者123 更新时间：2023-12-01 14:17:18

28

4

我正在使用 openhtmltopdf将 html 转换为 pdf。目前，如果 html 包含德语字符，例如 ä,ö,ü，我会遇到异常。

  PdfRendererBuilder builder = new PdfRendererBuilder();
  builder.useFastMode();
  builder.withHtmlContent(html,"file://localhost/");
  builder.toStream(out);
  builder.run();

org.xml.sax.SAXParseException; lineNumber: 17; columnNumber: 31; The entity "auml" was referenced, but not declared.

这是我的 html:

<html>
   <head>      
      <meta charset="UTF-8" />
    </head>
    <body>
        k&auml;se
    </body>
</html>

导出的单词是“käse”(奶酪)。

更新

我尝试过使用实体解析器，方法是这样的:

 DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
    DocumentBuilder builder=null;
    try{
      builder=factory.newDocumentBuilder();

      ByteArrayInputStream input=new ByteArrayInputStream(html.getBytes("UTF-8"));
      builder.setEntityResolver(FSEntityResolver.instance());
      org.w3c.dom.Document doc=builder.parse(input);


    }catch(Exception e){
      logger.error(e.getMessage(),e);
    }

但我在“解析”时仍然遇到相同的异常。

最佳答案

看来您需要提供 DTD或将实体名称 auml 替换为其对应的十六进制或十进制值，即分别为 ä 或 ä。参见 A.2. Entity Sets和 HTML 4 Entity Names .

html 内容如下所示:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html [
        <!ENTITY auml "&#228;">
]>
<html>
    <head>
    </head>
    <body>
        k&auml;se
    </body>
</html>

或者，您可以遍历 html 字符串并将实体名称替换为其相应的十进制/十六进制值，这应该没问题，或者在将 DTD 传递给 pdf 生成器之前将其添加到您的 html 字符串中。

更新

您可能想提供 jsoup图书馆一试。它解析并为您提供一个org.w3c.dom.Document，例如

Document jsoupDoc = Jsoup.parse(html); // org.jsoup.nodes.Document
W3CDom w3cDom = new W3CDom(); // org.jsoup.helper.W3CDom
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(jsoupDoc);

然后您可以像这样将 w3cDoc 传递给 pdf 生成器

PdfRendererBuilder builder = new PdfRendererBuilder();
builder.withW3cDocument(w3cDoc, "file://localhost/");

关于java - 带有德语字母表的 Html 到 Pdf，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60524835/

28

4

0

文章推荐： java - 如何从员工 map Prop 中检索ID值

文章推荐： java - 如何在 Scriptlet 中传递 Javascript 变量

文章推荐： c++ - gdb 在启动程序期间退出代码 127

不同语言的 Java 字母表
如何确定字符串是否只包含字母，而我想要的只是 [a-zA-Z]+，那么有什么方法可以通过区域设置确定字母吗？最佳答案 Character类具有诸如 isLetter 之类的方法它将能够确定一个字符是
Python html 字母表
有没有更简单的方法将非 html 字母转换为 html 字母？例如，如果我执行 function("a") 它将返回 "a" 我知道如何执行此操作的唯一方法是: def function(text)
javascript - 有没有一个函数可以用来检查两个字符串并返回nodejs中的常用单词/字母表
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
objective-c - UITableView - 字母表
这是我希望用字母表添加到我的 UITableView 的改进: 如果我的表中没有不以字母之一开头的结果，我不想在我的 UITableView 中看到这个 titleForHeaderInSection
将 unsigned int 转换为 char 字母表
我有以下代码，可将16位整数的流数据转换为无符号8位整数。我希望将它们转换为按字母顺序排列的数据值并查看它们包含的内容。 #include int main() { FILE
java - 如何从 UTF-8 输入中检测脚本系统/字母表？
我目前正在构建一个基于 icu4j 的音译 Web 界面。自动检测用户输入查询的脚本系统的最佳方式是什么？例如如果输入是 body 里或 عالمتاب 我如何/应该识别它来自哪个脚本系统？最佳答
python - 有没有一种简单的方法可以在 Python 列表中表示 base64 字母表？
字母表(及其索引)可以在这里找到: http://www.garykessler.net/library/base64.html 有没有比 alphabet = ['A','B',...] 更短的方式
android - 在 Android 模拟器上显示 Tifinagh 字母表
为了在 Android 模拟器上显示 Tifinagh 字符，我尝试了这个方法: TextView tv=(TextView)findViewById(R.id.font); Typeface fac
perl - 如何使用范围运算符 '..' 创建 utf-8 字母表？
有没有办法使用 Perl '..' 运算符创建 UTF-8 字母数组？例如，这个是行不通的: $ cat t.pl #!/usr/bin/perl use Data::Dumper; use enc
grammar - 字母表 "a,b,c"上具有相同数量子串 "ab"和 "ba"的所有字符串的语言是否是规则的？
字母表“a,b,c”上具有相同数量的子串“ab”和“ba”的所有字符串的语言是否是正则的？我认为答案是否定的，但是很难对其进行正式演示，甚至是非正式演示。关于如何解决这个问题有什么想法吗？最佳答
c - 用 typedef 和 enum 在 C 中表示 DNA 字母表
我正在编写一个处理基因序列的程序，我想将每个核苷酸存储在一个字节中，其中每个位代表基因字母表 A,C,G,T 中的一个字母(显然只有一半的比特会被使用)。我的编码如下: A = 0b1000 C =
regex - 正则表达式挑战 : For every consecutive 6 characters, 必须有两个 1(字母表 {"0"， "1"})
所以，我想构建一个正则表达式，我可以传入一个由 0 和 1 组成的字符串(例如“0010101000111100100011110001101100011”)，然后确保对于每 6 个连续字符，其中至少

首页

博学

6Ren·AI

商城

java - 带有德语字母表的 Html 到 Pdf