- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有几个包含文件的文件夹,一些文件夹的名称中包含非拉丁符号(在我的例子中是俄语)。此文件夹正在发送到“D:\test.zip”中的 zip 存档(通过 Windows 资源管理器)。然后我执行 method
ZipFile.ExtractToDirectory(@"D:\test.zip", @"D:\result");
它成功解压了所有内容,但所有非拉丁符号都变成了错误的东西。
例如,不是 "D:\result\каскады\file.txt" 我得到的是 "D:\result\Є бЄ ¤л\file.txt"。
我的系统的默认编码是 windows-1251 我通过将 Encoding.GetEncoding("windows-1251")
包含在 ExtractToDirectory
的第三个参数中来验证它并得到相同的结果。我还尝试了 UTF-8,但在路径中得到了另一个工件 ("D:\result\��᪠����\file.txt")。尝试 Unicode 返回有关不支持编码的消息。
当我通过执行 method 通过代码创建相同的存档时
ZipFile.CreateFromDirectory(@"D:\zipdata", @"D:\test.zip");
然后使用与问题顶部相同的代码行解压缩所有内容,即使没有指定特定的编码。
问题是:如何从存档中获取正确的编码以在 ExtractToDirectory
方法中应用它,因为在实际任务存档中来自外部源,我不能依赖它创建的位置手或以编程方式?
编辑
有 question非拉丁符号(中文)也会导致问题,但这个事实就像问题的解决方案一样给出,而这正是我的情况的问题。
最佳答案
没有正式标准化的 ZIP 规范。然而,事实上的标准是the PKZIP "application note" document ,截至 2006 年,仅记录代码页 437(“OEM 美国”)和 UTF8 作为存档中文件条目的合法文本编码:
D.1 The ZIP format has historically supported only the original IBM PC character encoding set, commonly referred to as IBM Code Page 437. This limits storing file name characters to only those within the original MS-DOS range of values and does not properly support file names in other character encodings, or languages. To address this limitation, this specification will support the following change.
D.2 If general purpose bit 11 is unset, the file name and comment should conform to the original ZIP character encoding. If general purpose bit 11 is set, the filename and comment must support The Unicode Standard, Version 4.1.0 or greater using the character encoding form defined by the UTF-8 storage specification. The Unicode Standard is published by the The Unicode Consortium (www.unicode.org). UTF-8 encoded data stored within ZIP files is expected to not include a byte order mark (BOM).
换句话说,使用代码页 437 或 UTF8 以外的任何文本编码是任何 ZIP 创作工具中的错误。根据您的经验,Windows 资源管理器似乎存在此错误。 :(
不幸的是,“通用位 11”是指示存档中使用的实际文本编码的唯一官方机制,这只允许原始 437 代码页或 UTF8。就连这点was not supported by .NET until .NET 4.5 .在任何情况下,即使从那时起,.NET 或任何其他 ZIP 存档感知软件也无法可靠地确定用于对存档中的文件条目名称进行编码的非标准、不受支持的编码。
但是,您可以,如果用于创建存档的源机器已知且可用,则通过 CultureInfo
类确定安装在该机器上的默认代码页.以下表达式将返回安装在执行该表达式的计算机上的代码页标识符(当然,假设该进程没有更改其当前的默认区域性):
System.Globalization.CultureInfo.CurrentCulture.TextInfo.OEMCodePage
这为您提供了可以传递给 Encoding.GetEncoding(Int32)
的代码页 ID检索 Encoding
对象,然后在打开现有存档时将其传递给适当的 ZipArchive
构造函数,以确保正确解码文件条目名称。
如果您无法从作为存档源的机器检索实际的文本编码,那么您将无法枚举编码,尝试每一种编码,直到找到一种以清晰格式报告条目名称的编码。
据我了解,Windows 8 及更高版本可以支持 ZIP 存档文件中的 UTF8 标志。我还没有尝试过,但这些版本的 Windows 也可能使用该标志写入 存档。如果是这样,那将(有人希望)减轻早期 Windows 错误的痛苦。
最后请注意,自定义工具可以将编码记录在存档本身中的特殊文件条目中。当然,只有该工具能够识别特殊文件并使用它来确定正确的编码(该工具必须打开存档两次:一次是检索文件,然后在工具确定了编码)。这不是一个理想的解决方案,当然对 Windows 资源管理器创建的存档没有帮助。我提到它只是为了完整起见。
关于c# - 使用 ExtractToDirectory 方法解压缩会扭曲非拉丁符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32402791/
给定一个字符串,例如 s="##$$$#",我如何找到索引之前的“#”符号数等于“”数的索引$"符号在索引之后? 示例:如果 s="##$$$#",则输出将为 2。 解释:在索引 2 之前我们有 2
在本教程中,您将借助示例了解 JavaScript 符号。 JavaScript 符号 JavaScript ES6 引入了一种新的原始数据类型,称为 Symbol(符号)。符号是不可变的(不能更改)
在“函数编程的工艺”一书中,符号 '>.>' 将函数连接在一起,与 '.' 的方向相反。但是当我使用 ghci 实现它时,它显示了超出范围的错误 '>.>'。为什么?它是不再使用的旧符号吗? 最佳答案
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我需要从向量中删除 \"。这是我的数据: data <- c("\"https://click.linksynergy.com/link?id=RUxZriH*PWc&offerid=323058.1
我在 Nginx 配置中使用正则表达式来捕获文件 URL,但如果文件 URL 包含 # 符号,正则表达式模式将不会捕获它。 这里是nginx的配置部分。 location ~ ^/p/(?[\w\-=
如何使 & 符号在此图表的第一组条形/列下正确显示: http://jsfiddle.net/VxbrK/2/ 应该是“Apples & Oranges”而不是“Apples & Oranges”。
**在verilog中是什么意思? 我为测试台提供了以下逻辑 localparam NUM_INPUT_BITS = 1; localparam NUM_OUTPUT_BITS
我有一个使用正则表达式来验证电子邮件地址的方法。 public String searchFormail(String searchWord) { Pattern pattern = Patt
我想将一个字符串拆分为数字部分和文本/符号部分我当前的代码不包含负数或小数,并且表现得很奇怪,在输出的末尾添加了一个空列表元素 import re mystring = 'AD%5(6ag 0.33-
我有一些代码需要从数组中选择一个随机字符串,但它一直返回单个字母或数字。如何解决这个问题? var name = ["Yayek", "Vozarut", "Gezex",
我刚开始使用 Python,我在考虑应该使用哪种表示法。我读过 PEP 8关于 Python 符号的指南,我同意那里的大多数内容,除了函数名称(我更喜欢混合大小写风格)。 在 C++ 中,我使用匈牙利
在用 C# 编写代码时,我错误地在 if 语句中的变量前添加了一个符号(而不是感叹号)。 bool b = false; if (@b) { } 我很惊讶它编译成功,没有任何错误。 我想知道:上面的代
本文实例为大家分享了特殊字符替换电话号码中某一部分的方法,ios利用-号替换电话号码中间四位,供大家参考,具体内容如下 1、效果图 2、代码 rootviewcontroll
当我使用“x”和“z”作为符号时,这段代码没有问题: from sympy import * x, z = symbols('x z') y = -6*x**2 + 2*x*z**0.5 + 50*x
我需要从文本中删除标点符号: data <- "Type the command AT&W enter. in order to save the new protocol on modem;"
我有几个数字是 numeric 类。下面的例子。 df = c(12974,12412,124124,124124,34543,4576547,32235) 现在我想在每个数字前添加 '$' 符号而不
我有一个 highcharts 图例,其中符号以不同的大小显示,因为它们在实际图表中的大小不同。不幸的是,当数据点的大小增加时,它们也会在图例中增加。无论数据点大小如何,我都希望图例符号保持相同的大小
我需要使用包含平均值+-SD的标题。到目前为止,我只能得到以下信息: "Mean +- SD or N (%)" [1] "Mean +- SD or N (%)" 如何直接使用“+-”符号?您知道一
使用 XSLT 和 XPath 1.0,我有一个要转义的字符串以用于 URL,例如: one word & another 因此,描述元素的 text() 应该进行 URL 转义。 我该怎么做
我是一名优秀的程序员,十分优秀!