- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 openhtmltopdf将 html 转换为 pdf。目前,如果 html 包含德语字符,例如 ä,ö,ü,我会遇到异常。
PdfRendererBuilder builder = new PdfRendererBuilder();
builder.useFastMode();
builder.withHtmlContent(html,"file://localhost/");
builder.toStream(out);
builder.run();
org.xml.sax.SAXParseException; lineNumber: 17; columnNumber: 31; The entity "auml" was referenced, but not declared.
这是我的 html:
<html>
<head>
<meta charset="UTF-8" />
</head>
<body>
käse
</body>
</html>
导出的单词是“käse”(奶酪)。
更新
我尝试过使用实体解析器,方法是这样的:
DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
DocumentBuilder builder=null;
try{
builder=factory.newDocumentBuilder();
ByteArrayInputStream input=new ByteArrayInputStream(html.getBytes("UTF-8"));
builder.setEntityResolver(FSEntityResolver.instance());
org.w3c.dom.Document doc=builder.parse(input);
}catch(Exception e){
logger.error(e.getMessage(),e);
}
但我在“解析”时仍然遇到相同的异常。
最佳答案
看来您需要提供 DTD或将实体名称 auml
替换为其对应的十六进制或十进制值,即分别为 ä
或 ä
。参见 A.2. Entity Sets和 HTML 4 Entity Names .
html 内容如下所示:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html [
<!ENTITY auml "ä">
]>
<html>
<head>
</head>
<body>
käse
</body>
</html>
或者,您可以遍历 html 字符串并将实体名称替换为其相应的十进制/十六进制值,这应该没问题,或者在将 DTD 传递给 pdf 生成器之前将其添加到您的 html 字符串中。
更新
您可能想提供 jsoup图书馆一试。它解析并为您提供一个org.w3c.dom.Document
,例如
Document jsoupDoc = Jsoup.parse(html); // org.jsoup.nodes.Document
W3CDom w3cDom = new W3CDom(); // org.jsoup.helper.W3CDom
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(jsoupDoc);
然后您可以像这样将 w3cDoc
传递给 pdf 生成器
PdfRendererBuilder builder = new PdfRendererBuilder();
builder.withW3cDocument(w3cDoc, "file://localhost/");
关于java - 带有德语字母表的 Html 到 Pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60524835/
如何确定字符串是否只包含字母,而我想要的只是 [a-zA-Z]+,那么有什么方法可以通过区域设置确定字母吗? 最佳答案 Character类具有诸如 isLetter 之类的方法它将能够确定一个字符是
有没有更简单的方法将非 html 字母转换为 html 字母?例如,如果我执行 function("a") 它将返回 "a" 我知道如何执行此操作的唯一方法是: def function(text)
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 6 年前。 Improve this ques
这是我希望用字母表添加到我的 UITableView 的改进: 如果我的表中没有不以字母之一开头的结果,我不想在我的 UITableView 中看到这个 titleForHeaderInSection
我有以下代码,可将16位整数的流数据转换为无符号8位整数。 我希望将它们转换为按字母顺序排列的数据值并查看它们包含的内容。 #include int main() { FILE
我目前正在构建一个基于 icu4j 的音译 Web 界面。自动检测用户输入查询的脚本系统的最佳方式是什么? 例如如果输入是 body 里或 عالمتاب 我如何/应该识别它来自哪个脚本系统? 最佳答
字母表(及其索引)可以在这里找到: http://www.garykessler.net/library/base64.html 有没有比 alphabet = ['A','B',...] 更短的方式
为了在 Android 模拟器上显示 Tifinagh 字符,我尝试了这个方法: TextView tv=(TextView)findViewById(R.id.font); Typeface fac
有没有办法使用 Perl '..' 运算符创建 UTF-8 字母数组? 例如,这个是行不通的: $ cat t.pl #!/usr/bin/perl use Data::Dumper; use enc
字母表“a,b,c”上具有相同数量的子串“ab”和“ba”的所有字符串的语言是否是正则的? 我认为答案是否定的,但是很难对其进行正式演示,甚至是非正式演示。 关于如何解决这个问题有什么想法吗? 最佳答
我正在编写一个处理基因序列的程序,我想将每个核苷酸存储在一个字节中,其中每个位代表基因字母表 A,C,G,T 中的一个字母(显然只有一半的比特会被使用)。 我的编码如下: A = 0b1000 C =
所以,我想构建一个正则表达式,我可以传入一个由 0 和 1 组成的字符串(例如“0010101000111100100011110001101100011”),然后确保对于每 6 个连续字符,其中至少
我是一名优秀的程序员,十分优秀!