具有两种不同字符集的 Java String.getBytes(charset) 和 new String(bytes, charset)-6ren

具有两种不同字符集的 Java String.getBytes(charset) 和 new String(bytes, charset)

转载作者：塔克拉玛干更新时间：2023-11-02 19:06:02

28

4

据我所知，在 String.getBytes(charset) 中，参数 charset 表示该方法返回编码为给定字符集的字符串字节。

在 new String(bytes, charset) 中，第二个参数 charset 表示该方法将字节解码为给定的字符集，并返回解码结果。

根据上述，以及我的理解，两种不同方法的字符集参数必须相同，这样 new String(bytes, charset) 才能返回正确的字符串。 (我想这就是我所缺少的。)

我有一个错误解码的字符串，我用它测试了以下代码:

String originalStr = "Å×½ºÆ®"; // 테스트 
String [] charSet = {"utf-8","euc-kr","ksc5601","iso-8859-1","x-windows-949"};

for (int i=0; i<charSet.length; i++) {
 for (int j=0; j<charSet.length; j++) {
  try {
   System.out.println("[" + charSet[i] +"," + charSet[j] +"] = " + new String(originalStr.getBytes(charSet[i]), charSet[j]));
  } catch (UnsupportedEncodingException e) {
   e.printStackTrace();
  }
 }
}

输出是:

[utf-8,utf-8] = Å×½ºÆ®
[utf-8,euc-kr] = ��쩍쨘�짰
[utf-8,ksc5601] = ��쩍쨘�짰
[utf-8,iso-8859-1] = Ã…Ã—Â½ÂºÃ†Â®
[utf-8,x-windows-949] = 횇횞쩍쨘횈짰
[euc-kr,utf-8] = ?����������
[euc-kr,euc-kr] = ?×½ºÆ®
[euc-kr,ksc5601] = ?×½ºÆ®
[euc-kr,iso-8859-1] = ?¡¿¨ö¨¬¨¡¢ç
[euc-kr,x-windows-949] = ?×½ºÆ®
[ksc5601,utf-8] = ?����������
[ksc5601,euc-kr] = ?×½ºÆ®
[ksc5601,ksc5601] = ?×½ºÆ®
[ksc5601,iso-8859-1] = ?¡¿¨ö¨¬¨¡¢ç
[ksc5601,x-windows-949] = ?×½ºÆ®
[iso-8859-1,utf-8] = �׽�Ʈ
[iso-8859-1,euc-kr] = 테스트
[iso-8859-1,ksc5601] = 테스트
[iso-8859-1,iso-8859-1] = Å×½ºÆ®
[iso-8859-1,x-windows-949] = 테스트
[x-windows-949,utf-8] = ?����������
[x-windows-949,euc-kr] = ?×½ºÆ®
[x-windows-949,ksc5601] = ?×½ºÆ®
[x-windows-949,iso-8859-1] = ?¡¿¨ö¨¬¨¡¢ç
[x-windows-949,x-windows-949] = ?×½ºÆ®

如你所见，我想出了获取原始字符串的方法:

[iso-8859-1,euc-kr] = 테스트  
[iso-8859-1,ksc5601] = 테스트  
[iso-8859-1,x-windows-949] = 테스트

这怎么可能？如何将字符串作为不同的字符集正确编码和解码？

最佳答案

According to the above, and as my understanding, the charset arguments of the two different methods must be the same so that new String(bytes, charset) can return a proper string.

这就是您应该瞄准的目标，即编写正确的代码。但这并不意味着每一次错误的操作都会产生错误的结果。一个简单的示例是仅由 ASCII 字母组成的字符串。许多编码为此类字符串生成相同的字节序列，因此仅使用此类字符串的测试不足以发现与编码相关的错误。

As you can see, I figure out the way of getting the original string:
[iso-8859-1,euc-kr] = 테스트  
[iso-8859-1,ksc5601] = 테스트  
[iso-8859-1,x-windows-949] = 테스트 
How can it be possible? How can the string be encoded and decoded properly as different character sets?

好吧，当我执行

System.out.println(Charset.forName("euc-kr") == Charset.forName("ksc5601"));

在我的机器上，它打印出 true。或者，如果我执行

System.out.println(Charset.forName("euc-kr").aliases());

它打印

[ksc5601-1987, csEUCKR, ksc5601_1987, ksc5601, 5601, euc_kr, ksc_5601, ks_c_5601-1987, euckr]

所以对于euc-kr和ksc5601，答案很简单。这些是相同字符编码的不同名称。

对于 x-windows-949，我必须求助于 Wikipedia :

Unified Hangul Code (UHC), or Extended Wansung, also known under Microsoft Windows as Code Page 949 (Windows-949, MS949 or ambiguously CP949), is the Microsoft Windows code page for the Korean language. It is an extension of Wansung Code (KS C 5601:1987, encoded as EUC-KR) to include all 11172 Hangul syllables present in Johab (KS C 5601:1992 annex 3).

所以它是 ksc5601 的扩展，只要您不使用任何受扩展影响的字符(想想上面的 ASCII 示例)，就会导致相同的结果。

p>

通常，这不会使您的前提无效。只有在双方使用相同的编码时才能保证正确的结果。这只是意味着，测试代码要困难得多，因为它需要足够的测试输入数据来发现错误。例如。西方世界的一个常见错误是将 iso-latin-1 (ISO 8859-1) 与 Windows 代码页 1252 混淆，这可能不会被简单的文本发现。

关于具有两种不同字符集的 Java String.getBytes(charset) 和 new String(bytes, charset)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55176094/

28

4

0

文章推荐： java - Spring thymeleaf limit text output in a th :each loop

文章推荐： android - 可以删除 googlemap 上图标(项目)的阴影吗？

java - java.nio.charset.Charsets 发生了什么？
所以，据我所知，这个类并不存在于标准 Java 库中，而是 Dalvik 中的新增内容。这是正确的吗？我认为这是 android 类“NdefRecord”包含对它的引用并使用它的原因，但无法将其导
c++ - MSVC++ 中源字符集编码规范，如 gcc "-finput-charset=CharSet"
我想创建一些处理编码的示例程序，特别是我想使用宽字符串，例如: wstring a=L"grüßen"; wstring b=L"שלום עולם!"; wstring c=L"中文"; 因为这些是
java - java.nio.charset.Charset.decode(..)/encode(..) 的快速替代品
有人知道一种更快的方法来完成 java.nio.charset.Charset.decode(..)/encode(..) 的功能吗？这是我目前使用的技术的瓶颈之一。 [编辑]具体来说，在我的应用程
c++ - MSVC++ 中的源字符集编码规范，如 gcc "-finput-charset=CharSet"
我想创建一些处理编码的示例程序，特别是我想使用宽字符串，例如: wstring a=L"grüßen"; wstring b=L"שלום עולם!"; wstring c=L"中文"; 因为这些是
Java Charset.forName ("ASCII") 或 Charset.forName ("US-ASCII")
我正在检查代码并遇到以下行。 Charset.forName("ASCII") 但是当我查看 java documentation它只有 US-ASCII ISO-8859-1 UTF-8
mysql - 初始化 PDO 时 - 我应该做 : charset=UTF8 or charset=UTF8MB4?
初始化 PDO 时 - 我应该做:charset=UTF8 还是 charset=UTF8MB4？这是我的初始化: $dsn = 'mysql:host=example.com;dbname=tes
java - 为什么没有 URLEncoder.encode(String, Charset), URLDecoder.decode(String, Charset)
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
具有两种不同字符集的 Java String.getBytes(charset) 和 new String(bytes, charset)
据我所知，在 String.getBytes(charset) 中，参数 charset 表示该方法返回编码为给定字符集的字符串字节。在 new String(bytes, charset) 中，第
PHP PDO : Charset=UTF8 : An invalid keyword charset was specified in the dsn string
我正在使用 sqlsrv 驱动程序连接到带有 PDO 的 MS SQL 服务器。 PHP 版本为 5.3.24。工作连接如下所示: $dsny = "sqlsrv:Server=xx1;Databas
Java:String.getBytes(Charset) 对比。 Charset.encode(String) 与 OutputStream 一起使用
我的算法有两个输入: 1 个将被编码的 utf8 String 对象 1 个字符集对象，指示我需要将字符串编码成什么最后，返回的结果将被放入一个OutputStream，一个可能发生多次但至少一次的
android - 多个字符集 : text/json; Charset=UTF-8;charset=utf-8 OkHttp Header
获取多个字符集:text/json； Charset=UTF-8;charset=utf-8 OkHttp Header 调用 okHttp Library 服务器时。有人知道我该如何解决这个问题。
json - 内容类型 'application/json; charset=utf-8' 不是预期的类型 'text/xml; charset=utf-8'
使用 firebug 时，我在我的 asp.net mvc 4 项目中收到此连线错误“NetworkError: 415 Cannot process the ...xt/xml; charset=u
java.lang.NoSuchMethodError : org. springframework.http.MediaType.getCharset()Ljava/nio/charset/Charset 错误
当我尝试通过 ant 运行我的 TestNG 测试时，我得到了 java.lang.NoSuchMethodError: org.springframework.http.MediaType.getC
响应消息的 WCF charset=utf-8 与绑定(bind)的内容类型不匹配 (application/soap+xml; charset=utf-8)
我正在使用 .NET 4.0 在 IIS 7.5 中托管 WCF 服务。我还有一个 WPF 应用程序，用作我的客户端，它是使用 Visual Studio 2010 和 .NET 4.0 构建的。我添
php - 内容类型 'text/xml; charset=utf-8' 不是预期的类型 'application/soap+xml; charset=utf-8'
我一直在尝试向 soap 服务器发送正确的请求。我不断收到错误消息。这是我的xml GET LAST REQUEST(添加换行符): 1 获取最后的回复: 请求 header : POST /
c# - 无法处理消息，因为内容类型 'application/json; charset=utf-8' 不是预期的类型 'text/xml; charset=utf-8'
我在通过 ajax json 调用 WCF 服务时收到上述响应。我的调用代码是: $(document).ready(function () { $.ajax
c# - 响应消息的内容类型 application/xml;charset=utf-8 与绑定(bind)的内容类型不匹配 (text/xml; charset=utf-8)
我尝试使用独立应用程序使用 WCF Web 服务。我可以使用 Internet Explorer 查看此服务，也可以在 Visual Studio 服务引用中查看。这是我遇到的错误 The cont
c# - 内容类型 text/html；响应消息的 charset=UTF-8 与绑定(bind)的内容类型不匹配(text/xml；charset=utf-8)
我使用独立应用程序创建了 WCF 服务并测试了 WCF 客户端。我能够使用 Internet Explorer 查看此服务，也能够在 Visual Studio 服务引用中查看。这是错误消息。 “响应
c# - HTTP 415 无法处理消息，因为内容类型 'application/json; charset=utf-8' 不是预期的类型 'text/xml; charset=utf-8'
我们有一个在 HTTPS 上运行良好但在 HTTPS 上显示 HTTP 415 错误的网络服务。因此，在 HTTP 下，我们可以毫无问题地发送和接收 JSON 的 POST 请求。当我们在 HTTPS
spring - 如何使 Spring Boot 默认为 application/json;charset=utf-8 而不是 application/json;charset=iso-8859-1
我正在将 spring-boot 从 1.3.6 更新到 2.1.3，而之前响应的内容类型为 application/json;charset=UTF-8 ，现在我得到了一个 iso-8859-1 的

首页

博学

6Ren·AI

商城

具有两种不同字符集的 Java String.getBytes(charset) 和 new String(bytes, charset)