gpt4 book ai didi

c# - 使用 ExtractToDirectory 方法解压缩会扭曲非拉丁符号

转载 作者:太空狗 更新时间:2023-10-29 21:38:47 29 4
gpt4 key购买 nike

我有几个包含文件的文件夹,一些文件夹的名称中包含非拉丁符号(在我的例子中是俄语)。此文件夹正在发送到“D:\test.zip”中的 zip 存档(通过 Windows 资源管理器)。然后我执行 method

    ZipFile.ExtractToDirectory(@"D:\test.zip", @"D:\result");

它成功解压了所有内容,但所有非拉丁符号都变成了错误的东西。

例如,不是 "D:\result\каскады\file.txt" 我得到的是 "D:\result\Є бЄ ¤л\file.txt"

我的系统的默认编码是 windows-1251 我通过将 Encoding.GetEncoding("windows-1251") 包含在 ExtractToDirectory 的第三个参数中来验证它并得到相同的结果。我还尝试了 UTF-8,但在路径中得到了另一个工件 ("D:\result\��᪠����\file.txt")。尝试 Unicode 返回有关不支持编码的消息。

当我通过执行 method 通过代码创建相同的存档时

    ZipFile.CreateFromDirectory(@"D:\zipdata", @"D:\test.zip");

然后使用与问题顶部相同的代码行解压缩所有内容,即使没有指定特定的编码。

问题是:如何从存档中获取正确的编码以在 ExtractToDirectory 方法中应用它,因为在实际任务存档中来自外部源,我不能依赖它创建的位置手或以编程方式?

编辑
question非拉丁符号(中文)也会导致问题,但这个事实就像问题的解决方案一样给出,而这正是我的情况的问题。

最佳答案

没有正式标准化的 ZIP 规范。然而,事实上的标准是the PKZIP "application note" document ,截至 2006 年,仅记录代码页 437(“OEM 美国”)和 UTF8 作为存档中文件条目的合法文本编码:

D.1 The ZIP format has historically supported only the original IBM PC character encoding set, commonly referred to as IBM Code Page 437. This limits storing file name characters to only those within the original MS-DOS range of values and does not properly support file names in other character encodings, or languages. To address this limitation, this specification will support the following change.

D.2 If general purpose bit 11 is unset, the file name and comment should conform to the original ZIP character encoding. If general purpose bit 11 is set, the filename and comment must support The Unicode Standard, Version 4.1.0 or greater using the character encoding form defined by the UTF-8 storage specification. The Unicode Standard is published by the The Unicode Consortium (www.unicode.org). UTF-8 encoded data stored within ZIP files is expected to not include a byte order mark (BOM).

换句话说,使用代码页 437 或 UTF8 以外的任何文本编码是任何 ZIP 创作工具中的错误。根据您的经验,Windows 资源管理器似乎存在此错误。 :(

不幸的是,“通用位 11”是指示存档中使用的实际文本编码的唯一官方机制,这只允许原始 437 代码页或 UTF8。就连这点was not supported by .NET until .NET 4.5 .在任何情况下,即使从那时起,.NET 或任何其他 ZIP 存档感知软件也无法可靠地确定用于对存档中的文件条目名称进行编码的非标准、不受支持的编码。

但是,您可以,如果用于创建存档的源机器已知且可用,则通过 CultureInfo 类确定安装在该机器上的默认代码页.以下表达式将返回安装在执行该表达式的计算机上的代码页标识符(当然,假设该进程没有更改其当前的默认区域性):

System.Globalization.CultureInfo.CurrentCulture.TextInfo.OEMCodePage 

这为您提供了可以传递给 Encoding.GetEncoding(Int32) 的代码页 ID检索 Encoding 对象,然后在打开现有存档时将其传递给适当的 ZipArchive 构造函数,以确保正确解码文件条目名称。


如果您无法从作为存档源的机器检索实际的文本编码,那么您将无法枚举编码,尝试每一种编码,直到找到一种以清晰格式报告条目名称的编码。

据我了解,Windows 8 及更高版本可以支持 ZIP 存档文件中的 UTF8 标志。我还没有尝试过,但这些版本的 Windows 也可能使用该标志写入 存档。如果是这样,那将(有人希望)减轻早期 Windows 错误的痛苦。


最后请注意,自定义工具可以将编码记录在存档本身中的特殊文件条目中。当然,只有该工具能够识别特殊文件并使用它来确定正确的编码(该工具必须打开存档两次:一次是检索文件,然后在工具确定了编码)。这不是一个理想的解决方案,当然对 Windows 资源管理器创建的存档没有帮助。我提到它只是为了完整起见。

关于c# - 使用 ExtractToDirectory 方法解压缩会扭曲非拉丁符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32402791/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com