gpt4 book ai didi

c# - 如何让 C# 抛出解码异常?

转载 作者:太空宇宙 更新时间:2023-11-03 20:04:11 27 4
gpt4 key购买 nike

我希望我的 C# 应用程序(具有 GUI)帮助用户在“unicode (utf-8)”和“legacy (cp1252)”之间做出选择。我想给用户两个独立的真/假读数,关于文件是否可以“成功”(尽管不一定正确)以这两种格式读取而不会丢失细节。

当我在 C# 中尝试以下操作时,它不起作用。也就是说,它似乎总是返回 true,即使我在我知道包含非罗马字符的 utf-8 文本文件上调用它也是如此。

[编辑:实际上,我不应该认为这会失败。可能是那些恰好不正确的合理成功之一,因为大多数(所有?)字节流也是有效的 cp1252。测试另一个方向确实发现无效的 utf-8,就像下面的 Python 代码一样。]

例如CanBeReadAs("nepali.txt", Encoding.GetEncoding(1252)) 应该返回 false,但它返回 true。

public static bool CanBeReadAs(string filePath, Encoding encoding)
{
// make it strict:
encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);
using (var r = new StreamReader(filePath, encoding, false))
{
try
{
r.ReadToEnd();
}
catch (Exception e)
{
//swallow
return false;
}
}
return true;
}

我也尝试过使用“string s = r.ReadToEnd();”只是为了确保它确实被强制解码数据,但这似乎不会影响任何事情。

我做错了什么?

注意:如果我需要做任何特殊的事情来处理 BOM,也请告诉我。如果这很简单,我倾向于忽略它们。 (其中一些文件具有混合编码,顺便说一句,尽管我认为实际上以 BOM 开头的任何内容都是纯 unicode。)

这是我创建的 Python 脚本,它使用相同的策略并且运行良好:

def bad_encoding(filename, enc='utf-8', max=9):
'''Return a list of up to max error strings for lines in the file not encoded in the specified encoding.

Otherwise, return an empty list.'''

errors = []
line = None
with open(filename, encoding=enc) as f:
i = 0
while True:
try:
i += 1
line = f.readline()
except UnicodeDecodeError:
errors.append('UnicodeDecodeError: Could not read line {} as {}.'.format(i, enc))
if not line or len(errors) > max:
break

return errors

最佳答案

通过 Encoding 类(Ascii、UTF8、Unicode 等)可用的静态编码实例都尝试尽最大努力解码输入字节,如果失败则不抛出。

要创建具有特定编码/解码行为的编码,您应该使用带有 EncoderFallback/DecoderFallback 参数的 Encoding.GetEncoding 的重载。我尝试创建各种编码(AsciiEncoding、UTF8Endcoding)的实例,但它们是只读的,因此设置回退选项总是会引发 InvalidOperationException。在您的情况下,要创建一个在解码失败时抛出的实例,请尝试:

encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);

关于c# - 如何让 C# 抛出解码异常?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24900704/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com