gpt4 book ai didi

.net - 为什么不推荐在 C# 中使用默认编码?

转载 作者:行者123 更新时间:2023-12-04 14:14:01 25 4
gpt4 key购买 nike

我在谷歌上搜索了编码。我发现在 C# 中不推荐使用默认编码。完整信息是:

Different computers can use different encodings as the default, and the default encoding can even change on a single computer. Therefore, data streamed from one computer to another or even retrieved at different times on the same computer might be translated incorrectly. In addition, the encoding returned by the Default property uses best-fit fallback to map unsupported characters to characters supported by the code page. For these two reasons, using the default encoding is generally not recommended. To ensure that encoded bytes are decoded properly, your application should use a Unicode encoding, such as UTF8Encoding or UnicodeEncoding, with a preamble. Another option is to use a higher-level protocol to ensure that the same format is used for encoding and decoding.



来源 MSDN

但是如何更改计算机的解码?我不清楚“不同的计算机可以使用不同的编码作为默认值”。

最佳答案

上个世纪的许多软件都使用单个字节来存储字符。 Unicode 的需求不可知。一个字节只能提供 256 个不同的值,因此此类软件只能处理具有有限数量的不同字符的文本。

几乎每个人都同意字节值 0 到 127 表示哪些字符,它们是 ASCII 字符集中的字符。 1960 年代早期的标准,用于为英文字母表中的字母和符号赋值。

这留下了另外 128 个未分配的值。擦在其中,它们可以在不同的地方代表不同的字符,用于表示非英文字形。例如希腊语和俄语等不使用拉丁字母的语言所必需的。或越南语和波兰语,这些语言使用拉丁字母但使用大量变音符号来标记不同的声音。尤其是对于具有非常大字母表的语言(如中文、韩文和日文)而言,尤其令人费解。此类语言需要双字节编码技巧才能将字母表压缩为 128 个值。

字节值到字符的映射称为代码页。有很多代码页。即使是单一语言。例如,可以在代码页 437(旧的 IBM-PC 字符集)中对英语进行编码。具有画框字符的独特之处,通常用于旧的 DOS 软件,并且仍然是控制台模式程序的默认设置。还有代码页 1252,这是一个 ANSI 代码页,它是西欧和美洲的 Windows 程序的默认值。和代码页 28591,ISO 对巴别塔的可爱贡献。我应该提到代码页 37,它用于 IBM 的 EBCDIC 编码,这是一种非 ASCII 编码,由于 IBM 在销售大型机方面的实力而幸存下来。否则,历史上一个值得注意的事故是将一个字节的大小标准化为 8 位。还有代码页 65001,即 UTF-8 的代码页,UTF-8 是一种使用可变长度 8 位编码的 Unicode 编码。

这不好。无法从文本文件中分辨出哪个代码页用于对文件中的文本进行编码。你必须对它进行有根据的猜测。如果你猜错了,那么你只会胡说八道。

Encoding.Default 将使用机器的默认 ANSI 编码,在控制面板的区域和语言小程序中配置,“非 Unicode 程序的语言”设置。从默认值更改它是非常不明智的,这会显着增加旧程序从文本文件中产生无意义的可能性。西欧和美洲的代码页为 1252,使用西里尔字母的语言为 1251,希腊语为 1253,阿拉伯语为 1256,等等。列表is here .

您可以通过尽可能避免 Encoding.Default 来避免这种痛苦。支持 UTF-8,这是一种 Unicode 编码,与 .NET 对 Unicode 的支持配合得很好。并且是 StreamWriter 和 File 等类的默认值。并且能够在文件的开头写入一个 BOM,3 个不同的字节,指示用于文本的编码,以便其他程序可以看到您使用的编码。仅当您背靠墙并被迫使用旧软件时才考虑另一种编码。

关于.net - 为什么不推荐在 C# 中使用默认编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18866583/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com