gpt4 book ai didi

java - 将 unicode 字符转换为 int 会给出错误的代码

转载 作者:行者123 更新时间:2023-12-01 17:45:10 25 4
gpt4 key购买 nike

我对 Java 还很陌生,所以请保持温柔。

这似乎是一个常见问题,但我似乎仍然无法找到我正在寻找的答案。

我正在编写一个控制台应用程序,它将获取一串字符并将其打印在屏幕上,但更大。例如:“JAVA”将打印为:

 JJJJJ   A   V   V   A
J A A V V A A
J A A V V A A
J AAAAA V V AAAAA
J A A V V A A
J J A A V V A A
JJJ A A V A A

没什么特别的。字符串被分解为字符,然后在一个大的 switch case 中查找每个字符,然后返回较大的字母。在必要时进行一些包装后,将大字母粘在一起并打印。

这太简单了,因为我想让我的生活更具挑战性,所以我想允许使用某些 unicode 字符,例如黑心 (❤)\u2674,(无论如何,这就是 Windows 字符映射表所声称的内容) )。基本上,将某种代码传递到参数中将在强内部进行替换并解释为 unicode 字符,例如: JAVA {HEART} 可能会输出(我知道心脏搞砸了,但它用等宽字体显示得很好):

 JJJJJ   A   V   V   A     ❤❤  ❤❤
J A A V V A A ❤❤❤❤❤❤
J A A V V A A ❤❤❤❤❤
J AAAAA V V AAAAA ❤❤❤❤
J A A V V A A ❤❤❤
J J A A V V A A ❤❤
JJJ A A V A A ❤

据我所知,unicode 应该适合 char(2 个字节)并且绝对应该适合 int(4 个字节),所以我做了一个实验。坊间流传的说法是,转换为 int 会得到字符代码。

String unicodeStr = "\u2674"; // Unicode for black heart.
System.out.println(unicodeStr.getBytes().length); // Only one byte, so should fit into a char, right?

char unicode = '\u2674'; // All good so far.
System.out.println((int)unicode); // Returns 9844. WTAF??

System.exit(-1); // Argh! Oh noez... Panic!

显然我在这里误解了一些东西,但我不知道是什么。请有人解释一下为什么我得到错误的字符代码?我尝试过使用 codePoints 但显然我也不知道我在用它做什么。如果有人能指出我正确的方向,我将永远感激不已。目标是将字符串拆分为字符,并通过 switch case 将每个字符转换为一个大字母。

最佳答案

根据specification , getBytes() 使用平台的默认字符集对字符串进行编码,这与 Java 的内部编码 UTF-16 不同。这就是为什么您的 getBytes() 返回一个单长度字节数组。

但事实上,字符 '\u2674' 的 UTF-16 表示可以放入单个字符中,因为 9844 是十六进制值 0x2674 的十进制表示。

但我还是建议你使用codePoints,因为有些字符不能存储在单个字符中,例如U+1D161 (𝅘𝅥𝅯 )。

要使用 codePoints 迭代 String,您可以使用以下代码:

public class Main {

public static void main(String[] args) {
String str = "JAVA\uD834\uDD61\u2665";
int len = str.length();
for(int i = 0; i < len; ) {
int cp = str.codePointAt(i);
i += cp > 0xFFFF ? 2 : 1;

if(cp == "\u2665".codePointAt(0)) {
System.out.println("Heart!");
}
else if(cp == "\uD834\uDD61".codePointAt(0)){
System.out.println("Music!");
}
else{
System.out.println((char)cp);
}
}
}

}

输出:

JAVA𝅘𝅥𝅯♥
size: 6
J
A
V
A
Music!
Heart!

为什么要用\uD834\uDD61来表示U+1D161

根据wikipedia ,为了表示UTF-16中的U+10000 ~ U+10FFFF字符,我们需要用0x10000减去0x1D161,然后得到0x0D161,即二进制的(0000 1101 0001 0110 0001)。

然后,我们取高十位,即(0000 1101 00),即0x034,将0x034与0xD800相加,得到0xD834。这是 U+1D161 的 UTF-16 表示形式的高字节。

对于低十位,我们得到0x161 + 0xDC00,即0xDD61

还有一个问题,String.codePointAt将char索引作为参数。有时,一个码点可能会占用两个字符的空间,因此在增加i之前,我们应该检查当前码点是否大于0xFFFF

顺便说一句,如果您使用的是 Java 1.8,则可以使用新的 String.codePoints API,返回一个 IntStream

关于java - 将 unicode 字符转换为 int 会给出错误的代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56289562/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com