gpt4 book ai didi

Java UTF-8 编码产生不正确的输出

转载 作者:行者123 更新时间:2023-11-30 06:20:14 28 4
gpt4 key购买 nike

在 Java 中,我一直在尝试使用 UTF-8 编码将字符串写入文件,稍后将由另一个用不同编程语言编写的程序读取。这样做时,我注意到在将字符串编码为字节数组时创建的字节似乎没有正确的字节值。

我将问题缩小到符号“£”,它在编码为 UTF-8 时似乎产生了不正确的字节

byte[] byteArray = "£".getBytes(Charset.forName("UTF-8"));

// Print out the Byte Array of the UTF-8 converted string
// Upcast byte values to print the bytes as unsigned
for (byte signedByte : byteArray) {
System.out.print((signedByte & 0xFF) + " ");
}

这会输出 6 个字节的十进制值:239 190 130 239 189 163,在十六进制中是:ef be 82 ef bd a3

http://www.utf8-chartable.de/但是说十六进制中“£”的值是:c2 a3,输出应该是:194 163

其他字符串在编码为 UTF-8 时似乎生成正确的字节,所以我想知道为什么 Java 为“£”生成这 6 个字节,以及我应该如何使用 UTF- 将字符串正确转换为字节数组8编码

我也试过

OutputStreamWriter out = new OutputStreamWriter(new FileOutputStream(outputFile), "UTF-8");
out.write("£");
out.close();

但这产生了相同的 6 个字节

最佳答案

我怀疑问题是您在 Java 代码中使用字符串文字,使用的编辑器以一种编码将其写出 - 但随后您在编译 时未指定相同的编码。换句话说,我怀疑您的 "£" 字符串实际上根本不是一个英镑符号。

这应该很容易验证。例如:

char[] chars = "£".toCharArray();
for (char c : chars) {
System.out.println((int) c);
}

为了解决这个问题,您可以使用 Unicode 转义序列使用纯 ASCII 表示来指定字符串:

String pound = "\u00a3";
// Now encode as before

我相信您会得到正确的字节。例如:

import java.nio.charset.Charset;

class Test {
public static void main(String[] args) throws Exception {
String pound = "\u00a3";
byte[] bytes = pound.getBytes(Charset.forName("UTF-8"));
for (byte b : bytes) {
System.out.println(b & 0xff); // 194, 163
}
}
}

关于Java UTF-8 编码产生不正确的输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22120246/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com