gpt4 book ai didi

java - 如何根据使用的字体将代码点映射到 unicode 字符?

转载 作者:可可西里 更新时间:2023-11-01 10:07:37 24 4
gpt4 key购买 nike

客户端打印标签并一直使用一组符号(?)字体来完成此操作。该应用程序使用单字节数据库(带有 Latin-1 的 Oracle)。我要替换的旧应用程序不支持 Unicode。它不知何故没问题。我正在编写的替换应用程序应该处理旧数据。

从 charmap 应用程序中选取的符号通常会映射到特定的 Unicode 字符,但有时它们不会。例如,使用 LAB3 字体看起来像 Moon 的实际上是 U+2014 (EM DASH)。当用户将此字符粘贴到 Swing 文本字段中时,该字符的代码点为 8212。数据库,Oracle 认为它不能被安全地编码,并用可怕的 ¿ 替换它。因此,我开始将字符移动 8000:保存时 -= 8000,显示字段时 += 8000。不幸的是,我发现其他字符并没有移动相同的量。例如,在一种特定字体中,ž 的代码点为 382,因此我将其移动 +/-256 以“修复”它。

现在我很害怕发现更多奇怪的偏移,我想知道:我可以使用 Java 获得这个映射吗?也许 TTF 字体有一个它编码的 255 个字形的列表以及什么那些对应的 Unicode 字符,我可以做到“正确”吗?

现在我正在使用以下工具:

static String fromDatabase(String str, String fontFamily) {

if (str != null && fontFamily != null) {
Font font = new Font(fontFamily, Font.PLAIN, 1);

boolean changed = false;
char[] chars = str.toCharArray();
for (int i = 0; i < chars.length; i++) {
if (font.canDisplay(chars[i] + 0xF000)) {
// WE8MSWIN1252 + WinXP
chars[i] += 0xF000;
changed = true;
}
else if (chars[i] >= 128 && font.canDisplay(chars[i] + 8000)) {
// WE8ISO8859P1 + WinXP
chars[i] += 8000;
changed = true;
}
else if (font.canDisplay(chars[i] + 256)) {
// ž in LAB1 Eastern = 382
chars[i] += 256;
changed = true;
}
}
if (changed) str = new String(chars);
}
return str;
}

static String toDatabase(String str, String fontFamily) {

if (str != null && fontFamily != null) {
boolean changed = false;
char[] chars = str.toCharArray();
for (int i = 0; i < chars.length; i++) {
int chr = chars[i];
if (chars[i] > 0xF000) {
// WE8MSWIN1252 + WinXP
chars[i] -= 0xF000;
changed = true;
}
else if (chars[i] > 8000) {
// WE8ISO8859P1 + WinXP
chars[i] = (char) (chars[i] - 8000);
changed = true;
}
else if (chars[i] > 256) {
// ž in LAB1 Eastern = 382
chars[i] = (char) (chars[i] - 256);
changed = true;
}
}
if (changed) return new String(chars);
}

return str;
}

最佳答案

字体文件肯定有从 Unicode 到字形的映射。不幸的是,字形完全是任意的,不需要与它映射到的字符有任何关系,正如您在 Moon/Em-Dash 中发现的那样。从单字节字符到 Unicode 代码点的映射可能可以在 Windows Code Page 1252 中找到。 ,但这不是您想要的 - 您希望字符 0x97 等同于月亮字形,例如 ☽ FIRST QUARTER MOON U+263D而不是 — EM DASH U+2014 .不幸的是,我只能找到字体中的每个字符并将其与可用的 Unicode 字符进行比较。

关于java - 如何根据使用的字体将代码点映射到 unicode 字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12803234/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com