- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有几个包含文件的文件夹,一些文件夹的名称中包含非拉丁符号(在我的例子中是俄语)。此文件夹正在发送到“D:\test.zip”中的 zip 存档(通过 Windows 资源管理器)。然后我执行 method
ZipFile.ExtractToDirectory(@"D:\test.zip", @"D:\result");
它成功解压了所有内容,但所有非拉丁符号都变成了错误的东西。
例如,不是 "D:\result\каскады\file.txt" 我得到的是 "D:\result\Є бЄ ¤л\file.txt"。
我的系统的默认编码是 windows-1251 我通过将 Encoding.GetEncoding("windows-1251")
包含在 ExtractToDirectory
的第三个参数中来验证它并得到相同的结果。我还尝试了 UTF-8,但在路径中得到了另一个工件 ("D:\result\��᪠����\file.txt")。尝试 Unicode 返回有关不支持编码的消息。
当我通过执行 method 通过代码创建相同的存档时
ZipFile.CreateFromDirectory(@"D:\zipdata", @"D:\test.zip");
然后使用与问题顶部相同的代码行解压缩所有内容,即使没有指定特定的编码。
问题是:如何从存档中获取正确的编码以在 ExtractToDirectory
方法中应用它,因为在实际任务存档中来自外部源,我不能依赖它创建的位置手或以编程方式?
编辑
有 question非拉丁符号(中文)也会导致问题,但这个事实就像问题的解决方案一样给出,而这正是我的情况的问题。
最佳答案
没有正式标准化的 ZIP 规范。然而,事实上的标准是the PKZIP "application note" document ,截至 2006 年,仅记录代码页 437(“OEM 美国”)和 UTF8 作为存档中文件条目的合法文本编码:
D.1 The ZIP format has historically supported only the original IBM PC character encoding set, commonly referred to as IBM Code Page 437. This limits storing file name characters to only those within the original MS-DOS range of values and does not properly support file names in other character encodings, or languages. To address this limitation, this specification will support the following change.
D.2 If general purpose bit 11 is unset, the file name and comment should conform to the original ZIP character encoding. If general purpose bit 11 is set, the filename and comment must support The Unicode Standard, Version 4.1.0 or greater using the character encoding form defined by the UTF-8 storage specification. The Unicode Standard is published by the The Unicode Consortium (www.unicode.org). UTF-8 encoded data stored within ZIP files is expected to not include a byte order mark (BOM).
换句话说,使用代码页 437 或 UTF8 以外的任何文本编码是任何 ZIP 创作工具中的错误。根据您的经验,Windows 资源管理器似乎存在此错误。 :(
不幸的是,“通用位 11”是指示存档中使用的实际文本编码的唯一官方机制,这只允许原始 437 代码页或 UTF8。就连这点was not supported by .NET until .NET 4.5 .在任何情况下,即使从那时起,.NET 或任何其他 ZIP 存档感知软件也无法可靠地确定用于对存档中的文件条目名称进行编码的非标准、不受支持的编码。
但是,您可以,如果用于创建存档的源机器已知且可用,则通过 CultureInfo
类确定安装在该机器上的默认代码页.以下表达式将返回安装在执行该表达式的计算机上的代码页标识符(当然,假设该进程没有更改其当前的默认区域性):
System.Globalization.CultureInfo.CurrentCulture.TextInfo.OEMCodePage
这为您提供了可以传递给 Encoding.GetEncoding(Int32)
的代码页 ID检索 Encoding
对象,然后在打开现有存档时将其传递给适当的 ZipArchive
构造函数,以确保正确解码文件条目名称。
如果您无法从作为存档源的机器检索实际的文本编码,那么您将无法枚举编码,尝试每一种编码,直到找到一种以清晰格式报告条目名称的编码。
据我了解,Windows 8 及更高版本可以支持 ZIP 存档文件中的 UTF8 标志。我还没有尝试过,但这些版本的 Windows 也可能使用该标志写入 存档。如果是这样,那将(有人希望)减轻早期 Windows 错误的痛苦。
最后请注意,自定义工具可以将编码记录在存档本身中的特殊文件条目中。当然,只有该工具能够识别特殊文件并使用它来确定正确的编码(该工具必须打开存档两次:一次是检索文件,然后在工具确定了编码)。这不是一个理想的解决方案,当然对 Windows 资源管理器创建的存档没有帮助。我提到它只是为了完整起见。
关于c# - 使用 ExtractToDirectory 方法解压缩会扭曲非拉丁符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32402791/
在 Windows 世界中,什么是正确的名称。具有导出函数的老式 C++ DLL?不是 COM DLL,也不是 .NET DLL。我们以前通过调用 LoadLibrary() 和 GetProcAdd
目前我正在使用javaEE7,我有一个场景如下。在我的 JSF Web 应用程序中,我有一个事件监听器(不是 JSF 事件),当事件调用时,它会执行某些操作,然后将这些信息更新到我的 Web 应用程序
这不是 AJAX 请求/响应回调问题... 我正在使用 Dojo 1.5 构建网格。我正在尝试 dojo.connect具有功能的扩展/收缩按钮。我的问题是 grid.startup()在创建实际 D
非 Webkit Opera 是 very specific在某些功能中,因此通常通过 JavaScript 检测到 the following way . 但是,Opera Next 几乎是 Goo
我已查看以下链接中给出的所有日志,但未能找到 IP 地址: https://developer.couchbase.com/documentation/server/3.x/admin/Misc/Tr
我有一个命令行程序,它根据一组源文件生成一个我想在我的 Android gradle 构建 (A) 中使用的 jar 文件。这个命令行程序只是将一个 jar 文件存储在磁盘上的一个目录中。 我如何创建
下面的 htaccess 命令将所有非 www 转移到 http www RewriteEngine On RewriteCond %{HTTP_HOST} !^www\. RewriteRule ^
我正在使用自定义链接器脚本将内核镜像分为两部分。第一个是普通代码和数据,第二个是初始化代码和不再需要时将被丢弃的数据。初始化部分也不像内核本身那样在地址空间之间共享,因此如果 fork() 仍然存在(
这个问题在这里已经有了答案: Several unary operators in C and C++ (3 个答案) What is the "-->" operator in C++? (29
假设我有一个类设置如下: class A { public: virtual void foo() { printf("default implementation\n"); } }; c
#include using namespace std; int main(int argc, char *argv[]) { int i=-5; while(~(i)) {
近期,百度搜索引擎变化无常,很多企业站、行业站、门户站、论坛等站点遭到了降权,特别是比比贴分类信息网直接遭到了拔毛,这对于广大站长来说是一种打击,也是各个企业、行业的打击。 至今,很多网站已经恢复
我现在正在使用 IBM TPM v1332 + IBM TSS v1470 并尝试将一些基本关键字/密码存储到 TPM 上的非 volatile 内存中。我找到了两种方法。一种是创建一个密封对象并使用
我的 PHP 脚本中有一个正则表达式,如下所示: /(\b$term|$term\b)(?!([^)/iu 这与 $term 中包含的单词匹配,只要前后有单词边界并且它不在 HTML 标记内即可。 但
我想显示用户名称地址(请参阅 www.ipchicken.com ),但我唯一能找到的是 IP 地址。我尝试了反向查找,但也没有用: IPAddress ip = IPAddress.Parse(th
只有 UI 线程能够显示到屏幕上,还是其他线程也可以这样做? 最佳答案 不,您只能直接从 UI 线程访问 UI,但您可以编码来自其他线程的结果,例如使用 Control.Invoke 或 contro
我正在使用现代 Excel 滚动条(不是旧的 ActiveX 类型,即开发人员 > 插入 > 表单控件 > 滚动条)并且想检测它的值何时更改。我找不到有关此类对象的更改事件的任何信息。您可以在单击时分
当我使用这段代码时 IE 6 确实正确使用了指定的样式表,但所有其他浏览器在应该使用基本上声明的样式表时会忽略这两种样式表,如果您不是 IE,请使用此样式表。 有什么想法吗? 最佳答案 n
我想指定 2 mssql 表之间的关系。 付款类别和付款。 paymentcategory.id 加入 payout.category 列。 在 payout.json 模型中 我指定为外键:id,
我正在尝试制作非 volatile UDF,但似乎不可能。因此,这是我非常简单的test-UDF: Option Explicit Dim i As Integer Sub Main() i = 0
我是一名优秀的程序员,十分优秀!