- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在 Java 项目中使用 PDFBOX 2.0.0 版将 pdf 转换为文本。
我的几个 pdf 缺少 ToUnicode 方法,所以当我导出它们时,它们会以乱码形式出现。2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1
在上面的 WARN 中,不是真实字符,而是一个乱码 unicode (30)。
我能够通过编辑 additional.txt
来克服它。 pdfbox 中的文件,因为从反复试验中我了解到字符的代码(在这种情况下为 694)代表某个希伯来字母(צ)。
这是我在文件中编辑的内容的简短示例:
-694;05E6 #HexaDecimal value for the letter צ
-695;05E7
-696;05E8
2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold
PDType0Font
)而不是第一个警告(
PDSimpleFont
),但是它们的代号 (694) 是相同的,并且它们都在谈论相同的内容特点。
additional.txt
之外,还有其他我应该编辑的文件吗?将 694 代码(希伯来字母 צ)指向正确的 unicode?
最佳答案
下面是一些在字体中添加 ToUnicode CMap 流的代码。显然我不能用你的文件来做,所以我用了我的一个测试文件,可以找到 here .我不得不单独处理每个条目,并没有完成所有工作。然而,结果足以提取绿色打印中的第一个单词(“Bedingungen”)。
该场景有点适合您:
try (PDDocument doc = PDDocument.load(f))
{
for (int p = 0; p < doc.getNumberOfPages(); ++p)
{
PDPage page = doc.getPage(p);
PDResources res = page.getResources();
for (COSName fontName : res.getFontNames())
{
PDFont font = res.getFont(fontName);
COSBase encoding = font.getCOSObject().getDictionaryObject(COSName.ENCODING);
if (!COSName.IDENTITY_H.equals(encoding))
{
continue;
}
// get real name
String fname = font.getName();
int plus = fname.indexOf('+');
if (plus != -1)
{
fname = fname.substring(plus + 1);
}
if (font.getCOSObject().containsKey(COSName.TO_UNICODE))
{
continue;
}
System.out.println("File '" + f.getName() + "', page " + (p + 1) + ", " + fontName.getName() + ", " + font.getName());
if (!fname.startsWith("Calibri-Bold"))
{
continue;
}
COSStream toUnicodeStream = new COSStream();
try (PrintWriter pw = new PrintWriter(toUnicodeStream.createOutputStream(COSName.FLATE_DECODE)))
{
// "9.10 Extraction of Text Content" in the PDF 32000 specification
pw.println ("/CIDInit /ProcSet findresource begin\n" +
"12 dict begin\n" +
"begincmap\n" +
"/CIDSystemInfo\n" +
"<< /Registry (Adobe)\n" +
"/Ordering (UCS) /Supplement 0 >> def\n" +
"/CMapName /Adobe-Identity-UCS def\n" +
"/CMapType 2 def\n" +
"1 begincodespacerange\n" +
"<0000> <FFFF>\n" +
"endcodespacerange\n" +
"10 beginbfchar\n" + // number is count of entries
"<0001><0020>\n" + // space
"<0002><0041>\n" + // A
"<0003><0042>\n" + // B
"<0004><0044>\n" + // D
"<0013><0065>\n" + // e
"<0012><0064>\n" + // d
"<0017><0069>\n" + // i
"<001B><006E>\n" + // n
"<0015><0067>\n" + // g
"<0020><0075>\n" + // u
"endbfchar\n" +
"endcmap CMapName currentdict /CMap defineresource pop end end");
}
font.getCOSObject().setItem(COSName.TO_UNICODE, toUnicodeStream);
}
}
doc.save("huhu.pdf");
}
关于java - 如何在 pdfbox 2.0.0 上的 truetype0font 中添加 unicode?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39485920/
将以下内容添加到我的键绑定(bind)中可以让我将 Sublime Text 3 中的字体大小重置为默认大小: { "keys": ["ctrl+0"], "command": "reset_font
我有一个如下所示的 css 字体系列(由于显示限制,我已经缩短了它,否则它比我在这里展示的要大得多)现在你能告诉我是否有办法将 url()content 转换为 .ttf 字体格式或其他标准字体格式吗
具体来说... and ...显示为双倍或四倍。 最佳答案 Customize Twitter Bootstrap here. Make sure to uncheck the default "
当包含 @font-face 和 src 以导入网络字体时,我注意到您可以传入 2 个可选值。我目前不这样做。 我有 2 种网络字体,Lato Regular 和 Lato Bold。 我应该在 @f
我正在本地主机上测试一个字体很棒的网站,它工作正常;但是当我将它上传到我的远程站点时,它不再显示字体了。我该如何解决?尝试了所有调试但没有成功。 网站在那里 www.sevotec.it/ordine
我开始使用 font-squirrel (http://www.fontsquirrel.com/tools/webfont-generator) 来快速使我的字体跨浏览器兼容,我只是想知道字体质量是
以前我复制了一个ttf文件到C:\Windows\Fonts,点击文件显示字体,然后点击[安装],一切正常。 当我现在执行此过程时,字体未安装在 C:\Windows\Fonts 中,而是安装在 C:
我注意到,在工作中,Google Web字体未出现在IE9和Firefox 6(Windows和Mac OS)上。所有文件都已加载,但字体从未渲染。在那些相同的浏览器上,它可以在家正常工作。 Chro
我正在学习 Swift UI 教程,我遇到了这个错误,而讲师没有。 .font 错误在第一个 Vstack 中仅出现一次,而第二次则没有问题。 import SwiftUI struct Conten
我知道使用@font-face 允许浏览器下载自定义字体并在网页中使用它,就像使用任何系统字体一样。 我想知道的是浏览器是对字体进行编码还是在不公开的情况下使用它? 谢谢 最佳答案 浏览器无法保护字体
使用基于@font-face 标记的标准fontsquirrel .. 字体呈现在较粗的一面。下面是一个屏幕截图,以几种不同的方式展示了字体。顶部是 photoshop 的渲染图,第二个是相同字体的
我必须在元素中使用花哨的字体,但我真的很想避免使用 sifr 和其他丑陋的替代品,所以我正在寻找@font-face。 但是,我真的很困惑几个博客/网站提供了关于它的可用性的不同观点。准备好了吗?目前
我几乎在我工作的所有项目中都使用 fontawesome。但这次我得到的图标显示为正方形。我还尝试了 stackoverflow 上列出的几乎所有解决方案,但似乎对我的情况没有任何效果。我猜是什么东西
好的,所以我正在尝试让 IE9 显示字体 Agenda。我像往常一样去了 fontsquirrel,它说 font bureau 不允许他们创建字体套件。然后我去了 codeandmore 并在那里制
Font Awesome 4.0是对 Font Awesome 从头开始的完全重写。主要的新功能之一是图标现在具有命名空间。除了命名空间之外,图标还使用基于一致性和可预测性的新命名约定。不幸的是,
我使用版本 3.2.9 (Media Mark) 的 SASS 并且我想使用我的自定义 font-family 的 3 个变体Source Sans Pro 字体(Light、Regular、Bold
在一些 css 文件中嵌入一些 base64 字体,但 CSP 阻止了这些:类似于 url("data:font/woff;base64,d09GRk9UVE...); 当前 CSP =“base-u
我怎样才能使 Font Awesome 图标像本页中那样大: http://fontawesome.io/icon/bath/ 我使用了 fa-5x 类,但它与页面示例中最大的图标不同。 下面是我使用
我有一个带有Bootsrap 4(SASS)和Font Awesome 5的MVC项目。我正在尝试使旋转的图标可以与Ajax加载面板一起使用,但是它不起作用。 Test Spin
似乎 font-awesome 支持自定义图标,并附有详细说明如何创建和提交您自己的图标,但该信息在他们的网站上不再可用。这是否意味着不再支持此功能并且您只能请求由 font-awesome 团队完成
我是一名优秀的程序员,十分优秀!