gpt4 book ai didi

c# - 如何检查文件编码是否正确(对应于国家/代码页)?

转载 作者:行者123 更新时间:2023-11-30 22:16:47 25 4
gpt4 key购买 nike

如果 txt 文件仅包含与国家/地区代码页对应的有效字符,我如何检查它?

因为它们被转移到 linux 系统,所以每个字符都必须在代码页中

通过谷歌搜索我找不到任何有用的东西

是否有一种“干净”的方式来检查这个,或者是否只有“肮脏”(静态)的方式来做到这一点?

更新:情况是这样的,我必须检查包含应用程序翻译的资源文件。这些文件是在不同的国家/地区翻译的,因此很容易发生输入错误字符而导致应用程序无法正确显示的情况。 Windows 总是搜索外观几乎相同的字符,但 linux 不会。这就是重点。

最佳答案

您说“假设文件使用 UTF-8”。

在这种情况下,假设您可以将文件读入 C# 字符串或字符串数​​组。

例如,如果您有一个 byte[] 数组,您可以像这样转换为 C# UTF16 字符串:

var text = Encoding.UTF8.GetString(utf8Bytes);

或者您可以(使用 UTF8 编码)直接将其从文件中读入 C# 字符串。让我们假设您自己可以做到这一点。

现在 - 假设您有一个 C# 字符串 - 您可以使用一个带有代码页参数的 Encoding.GetEncoding() 和一个 EncoderExceptionFallback 和一个 DecoderExceptionFallback 检查字符串在该特定代码页中是否有效,如下所示:

public static bool IsStringValidForCodePage(string text, int codePage)
{
var encoder = Encoding.GetEncoding(codePage, new EncoderExceptionFallback(), new DecoderExceptionFallback());

try
{
encoder.GetBytes(text);
}

catch (EncoderFallbackException)
{
return false;
}

return true;
}

以下示例使用希腊文 Pi 字符“π”,它在代码页 1253(希腊语)中有效,在代码页 1252(拉丁语 1)中无效。

string pi = "π"; // Mmmm. I like pi.

if (IsStringValidForCodePage(pi, 1252))
Console.WriteLine("Pi is ok in 1252");
else
Console.WriteLine("Pi is NOT ok in 1252"); // Prints NOT ok.

if (IsStringValidForCodePage(pi, 1253))
Console.WriteLine("Pi is ok in 1253"); // Prints ok.
else
Console.WriteLine("Pi is NOT ok in 1253");

关于c# - 如何检查文件编码是否正确(对应于国家/代码页)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17147994/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com