gpt4 book ai didi

Java - 将 UTF-8 字符串转换为二进制的正确方法是什么?

转载 作者:行者123 更新时间:2023-12-02 08:46:20 28 4
gpt4 key购买 nike

我使用此代码将 UTF-8 String 转换为二进制:

public String toBinary(String str) {
byte[] buf = str.getBytes(StandardCharsets.UTF_8);
StringBuilder result = new StringBuilder();
for (int i = 0; i < buf.length; i++) {
int ch = (int) buf[i];
String binary = Integer.toBinaryString(ch);
result.append(("00000000" + binary).substring(binary.length()));
result.append(' ');
}
return result.toString().trim();
}

在我使用此代码之前:

private String toBinary2(String str) {
StringBuilder result = new StringBuilder();
for (int i = 0; i < str.length(); i++) {
int ch = (int) str.charAt(i);
String binary = Integer.toBinaryString(ch);
if (ch<256)
result.append(("00000000" + binary).substring(binary.length()));
else {
binary = ("0000000000000000" + binary).substring(binary.length());
result.append(binary.substring(0, 8));
result.append(' ');
result.append(binary.substring(8));
}
result.append(' ');
}
return result.toString().trim();
}

这两个方法可以返回不同的结果;例如:

toBinary("è") = "11000011 10101000"
toBinary2("è") = "11101000"

我认为这是因为 è 的字节是负数,而相应的 char 不是(因为 char 是一个 2 字节无符号整数)。
我想知道的是:这两种方法中哪一种是正确的?为什么?
提前致谢。

最佳答案

每当您想要将文本转换为二进制数据(或转换为表示二进制数据的文本,就像您在此处所做的那样)时,您都必须使用某种编码

您的 toBinary 使用 UTF-8 进行编码。

您的 toBinary2 使用的不是标准编码:它以单个字节对每个 UTF-16 代码点 * <= 256 进行编码,对所有其他代码点以 2 个字节进行编码。不幸的是,这不是一种有用的编码,因为为了解码,您必须知道单个字节是独立的还是 2 字节序列的一部分(UTF-8/UTF-16 通过用最高位来指示)级别位是哪一个)。

tl;dr toBinary 似乎是正确的,toBinary2 将产生无法唯一解码回原始字符串的输出。

* 您可能想知道 UTF-16 的提及从何而来:那是因为 Java 中的所有 String 对象都隐式以 UTF-16 编码。因此,如果您使用 charAt,您将获得 UTF-16 代码点(恰好等于基本多语言平面中所有字符的 Unicode 代码号)。

关于Java - 将 UTF-8 字符串转换为二进制的正确方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61058880/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com