perl - readdir 以什么编码返回文件名？-6ren

perl - readdir 以什么编码返回文件名？

转载作者：太空宇宙更新时间：2023-11-03 16:51:44

27

4

这是我希望打印的 Perl 脚本 found执行时:

#!/usr/bin/perl
use warnings;
use strict;
use utf8;
use Encode;

use constant filename => 'Bärlauch';

open (my $out, '>', filename) or die;
close $out;

opendir(my $dir, '.') or die;
while (my $filename_read = readdir($dir)) {
# $filename_read = encode('utf8', $filename_read);
  print "found\n" if $filename_read eq filename;
}

该脚本首先创建一个名为 filename 的文件。 . (运行脚本后，我可以用 ls 验证文件是否存在，并且该文件不是用“funny”字符创建的。)

然后脚本遍历当前工作目录中的文件并打印 found如果存在名称与刚刚创建的文件相同的文件。显然应该是这样。

但是，它没有(Ubuntu、bash、 LANG=en_US.UTF8)

如果我将常量更改为 Barlauch ，它按预期工作并打印 found .

取消注释 $filename_read = encode('utf8', $filename_read);不会改变行为。

对此是否有解释，我该怎么做才能识别包含 Umlaute 的文件名？

最佳答案

改写的问题(按照我的解释)是:

Why doesn't readdir return back the newly created filename? (Here, represented by the variable filename which is set to Bärlauch).

(注意: filename 是一个 Perl 常量变量，所以这就是为什么它前面缺少 $ 符号的原因。)

背景:

第一个注意事项:由于 use utf8程序开头的语句， filename将在编译时升级为 Unicode 字符串，因为它包含非 ASCII 字符。来自 utf8 的文档附注:

Enabling the utf8 pragma has the following effect: Bytes in the source text that are not in the ASCII character set will be treated as being part of a literal UTF-8 sequence. This includes most literals such as identifier names, string constants, and constant regular expression patterns.

而且，根据 perluniintro “Perl 的 Unicode 模型”部分:

The general principle is that Perl tries to keep its data as eight-bit bytes for as long as possible, but as soon as Unicodeness cannot be avoided, the data is transparently upgraded to Unicode.

...

Internally, Perl currently uses whatever the native eight-bit character set of the platform (for example Latin-1) is, defaulting to UTF-8, to encode Unicode strings.

filename 中的非 ASCII 字符是字母 ä .如果您使用 ISO 8859-1 扩展 ASCII 编码 (Latin-1)，则将其编码为字节值 0xE4 ，看到这个 table在 ascii-code.com .
但是，如果您删除了 ä字符来自 filename ，它将仅包含 ASCII 字符，因此即使您使用 utf8，它也不会在内部升级为 Unicode。语用。

所以 filename现在是带有内部 UTF-8 的 Unicode 字符串标志设置(有关 UTF-8 标志的更多信息，请参阅 utf8 编译指示)。注意字母 ä以 UTF-8 编码为两个字节 0xC3 0xA4 .

写入文件:

写入文件时，文件名会发生什么？如 filename是一个 Unicode 字符串，它将被编码为 UTF-8。但是请注意，不必对 filename 进行编码第一个( encode_utf8( filename ) )。见 Creating filenames with unicode characters想要查询更多的信息。因此，文件名以 UTF-8 编码字节的形式写入磁盘。

读回文件名:

当试图从磁盘读回文件名时， readdir即使文件名包含以 UTF-8 编码的字节，也不返回 Unicode 字符串(设置了 UTF-8 标志的字符串)。它返回二进制或字节字符串，见 perlunitut有关字节字符串与字符 (Unicode) 字符串的讨论。

为什么不 readdir返回Unicode字符串？首先，根据
perlunicode “当 Unicode 不发生时”部分:

There are still many places where Unicode (in some encoding or another) could be given as arguments or received as results, or both in Perl, but it is not. (...)

The following are such interfaces. For all of these interfaces Perl currently (as of v5.16.0) simply assumes byte strings both as arguments and results. (...)

One reason that Perl does not attempt to resolve the role of Unicode in these situations is that the answers are highly dependent on the operating system and the file system(s). For example, whether filenames can be in Unicode and in exactly what kind of encoding, is not exactly a portable concept. (...)

chdir, chmod, chown, chroot, exec, link, lstat, mkdir, rename, rmdir, - stat, symlink, truncate, unlink, utime, -X

%ENV

glob (aka the <*>)

open, opendir, sysopen

qx (aka the backtick operator), system

readdir, readlink

所以 readdir返回字节字符串，因为通常不可能先验地知道文件名的编码。有关为什么这是不可能的背景信息，请参见例如:

filename在维基百科中，“编码互操作性”小节，

Understanding Unix file name encoding在 unix.stackexchange.com 上

字符串比较:

现在，最后您尝试比较读取的文件名 $filename_read使用变量 filename :

print "found\n" if $filename_read eq filename;

在这种情况下 $filename_read之间的唯一区别和 filename是 $filename_read没有设置 UTF-8 标志(它不是 Perl 内部识别为“Unicode 字符串”的)。

现在有趣的是 eq 的结果运算符将取决于 $filename_read 中的字节是否为是否是纯 ASCII。根据 Encode 的文档模块:

Before the introduction of Unicode support in Perl, The eq operator just compared the strings represented by two scalars. Beginning with Perl 5.8, eq compares two strings with simultaneous consideration of the UTF8 flag.

...

When you decode, the resulting UTF8 flag is on--unless you can unambiguously represent data.

所以在你的情况下， eq会考虑 UTF-8标志自 $file_name_read不包含纯 ASCII，因此它会
考虑两个字符串不是平等的。如 $filename_read和 filename其中相同且仅包含纯 ASCII 字节(并且 filename 仍然设置了 UTF-8 标志， $filename_read 没有设置 UTF-8 标志)，然后 eq会认为两个字符串相等。参见 Encode 文档中的讨论有关此行为背景的更多信息。

结论:

因此，如果您相对确信所有文件名都是 UTF-8 编码，则可以通过解码从 readdir 返回的字节字符串来解决问题中的问题。转换为 Unicode 字符串(强制设置 UTF-8 标志):

$filename_read = Encode::decode_utf8( $filename_read );

更多详情

注意:由于 Unicode 允许相同字符的多种表示形式，因此存在两种形式的 ä (带分音符的拉丁文小写字母 A)在 Bärlauch .例如，

U+00E4 是NFC(Normalization Form canonical Composition)形式，

U+0061.0308 是 NFD(Normalization Form canonical Decomposition)形式。

在我的平台 (Linux) 上，UTF-8 编码的文件名使用 NFC 形式存储，但在 Mac OS 上，它们使用 NFD 形式。见 Encode::UTF8Mac 想要查询更多的信息。这意味着如果您在 Linux 机器上工作，例如克隆由 Mac 用户创建的 Git 存储库，您可以轻松地在 Linux 机器上获得 NFD 编码的文件名。所以 Linux 文件系统并不关心文件名的编码方式。它只是将其视为一个字节序列。因此，即使我的语言环境是 "en_US.UTF-8"，我也可以轻松编写一个脚本来创建一个 ISO-Latin-1 编码的文件名。 .当前的语言环境设置只是应用程序的指导方针，但如果应用程序忽略了语言环境设置，则没有什么可以阻止它们这样做。

因此，如果您不确定文件名是否从 readdir 返回正在使用 NFC 或 NFD，您应该在解码后始终分解:

use Unicode::Normalize;
print "found\n" if NFD( $filename_read ) eq NFD( filename );

另见 Perl Unicode Cookbook “总是分解和重新组合”部分。

最后，要了解有关区域设置如何与 Perl 中的 Unicode 协同工作的更多信息，您可以查看:

perllocale 、“Unicode 和 UTF-8”部分和

Encode::Locale .

关于perl - readdir 以什么编码返回文件名？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37027051/

27

4

0

文章推荐： Ruby shell 命令评估不适用于别名

文章推荐： c# - 如何找到连续 UDP 流的远程地址

文章推荐： javascript - 允许用户通过网络摄像头直播

文章推荐： c# - WebClient.DownloadFileAsync 异常

perl - Perl 程序如何知道在哪里可以找到包含它使用的 Perl 模块的文件？
如果我的 Perl 程序使用 Perl 模块，它将如何确定在哪里可以找到包含模块代码的文件？例如，如果程序包含: use MyModule1; # Example 1 us
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 'perl' 不被识别为外部或内部命令 *帮助配置草莓 perl!*
我正在自学 Perl，并且在我的 Windows 8 64 位系统上安装了 Strawberry。 Strawberry 命令行似乎工作正常，我在 C 驱动器上的 Strawberry 文件夹中创建了
perl - 开发 Perl 和测试 Perl
我在 Perl 模块 IO::Socket::SSL 中发现了一个错误，我可能会修复它，但是，我担心测试修复。我从 Debian 下载了源码包(因为我打算为它制作一个 Debian 包或补丁)并查看了
perl - 如何从一个 perl 模块调用子程序到另一个 perl 模块？
我有一个 perl 文件，它使用了两个 perl 模块 A.pm 和 B.pm。但是在 B.pm 中我需要调用 A.pm 的子程序。即使我在 A.pm 中使用并尝试使用它，我仍然遇到未定义的错误。
perl - 在 Perl 运行时自动加载 perl 模块
有没有办法在 Perl 运行时加载整个模块？我原以为我用 autouse 找到了一个很好的解决方案，但以下代码无法编译: package tryAutouse2; use autouse 'tryAu
perl - 与 Perl 模块相比，Perl 程序是否有标准或最佳实践？
过去，我编写过许多 perl 模块，以及不止一些独立的 perl 程序，但我之前从未发布过多文件 perl 程序。我有一个几乎处于 beta 阶段的 perl 程序，它将被开源发布。它需要一些数据文
perl - 从不同的 perl 脚本访问 perl 子例程
我有 1 个 perl 脚本，我们在其中编写了几个子例程。例子: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} 现在，
perl - 阻止 Perl XS 模块默默地退回到纯 perl
似乎 CPAN 上的一些(很多？)模块部分是使用 XS 在 C 中实现的，如果需要，可以回退到纯 perl 实现。虽然这很聪明，但它显然会损害性能，我想知道它是否会发生，以便我可以解决问题。有没有一
perl - 在 perl 中自动安装 perl 依赖项
我对 perl 很陌生。我希望我可以从 perl 安装一些软件包，我这样做是这样的: perl -MCPAN -e 'install VM::EC2' 我猜它由于依赖而失败，它显示: Result:
perl - 如何编写 Perl 脚本来提取 Perl 包中每个子程序的源代码？
给定一个 Perl 包 Foo.pm，例如 package Foo; use strict; sub bar { # some code here } sub baz { # more
perl - 如何美化 Perl 生成的 Perl 代码？
我有一个用 Perl 编写的测试生成器。它生成连接到模拟器的测试。这些测试本身是用 Perl 编写的，并通过其 API 连接到模拟器。我希望生成的代码是人类可读的，这意味着我希望它能够正确缩进和格式化
perl - "perl"和 "perl -w"之间的区别？
我正在学习 Perl，非常新的用户。我可以知道这些 Perl 代码之间有什么区别吗？ #!/usr/bin/perl & #!/usr/bin/perl -w 最佳答案那不是 perl 代码，它是
perl - 如何使用多个版本的 Perl 在 Perl 模块中安装脚本？
我不认为这是一个重复的问题。这专门针对 Perl 模块附带的脚本。通常，在安装多个 Perl 版本时，您可以将 perl 可执行文件标记为版本号 (perl5.32)，这样它们就可以在 /whate
perl - 从 Perl 中的字符串执行整个 perl 程序
我有一个在文件中使用 Blowfish 加密的程序和第二个 perl 程序，它提示输入用于将其解密为字符串的密码，我希望不必将解密的源代码写入硬盘驱动器，尽管将它放在内存中并不是真正的问题，因为运行程
perl - Perl 6 的这一侧是否有针对惰性列表的 Perl 解决方案？
有没有人为 Perl 中的惰性求值列表找到了一个好的解决方案？我尝试了很多方法来改变类似的东西 for my $item ( map { ... } @list ) { } 进入懒惰的评估——例如，通
perl - 如何从 perl 脚本本身打印出正在运行的 perl 版本？
我安装了多个版本的 Perl。我已经指定了要使用的版本。但是为了验证，我想从 .pl 脚本本身输出 Perl 的版本。这可能吗？在 Perl 脚本中解析“perl --version”的输出似乎
perl - 如何打包我的 Perl 脚本以在没有 Perl 的机器上运行？
人们还经常问“我怎样才能编译 Perl？”而他们真正想要的是创建一个可以在机器上运行的可执行文件，即使他们没有安装 Perl。我知道有几种解决方案: perl2exe靛蓝之星它是商业的。我从未尝试
perl - 什么是对非 Perl 开发人员的有效 Perl 培训？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this

首页

博学

6Ren·AI

商城

perl - readdir 以什么编码返回文件名？