perl - 使用 Encode::encode 和 "utf8"-6ren

perl - 使用 Encode::encode 和 "utf8"

转载作者：行者123 更新时间：2023-12-03 01:35:23

31

4

您可能知道，在 Perl 中，“utf8”意味着 Perl 对 UTF-8 的宽松理解，它允许使用技术上不是 UTF-8 中有效代码点的字符。相比之下，“UTF-8”(或“utf-8”)是 Perl 对 UTF-8 更严格的理解，它不允许无效的代码点。

我有一些与此区别相关的使用问题:

Encode::encode 默认情况下会用替换字符替换无效字符。即使您传递更宽松的“utf8”作为编码，这是真的吗？
当您读取和写入使用“UTF-8”打开的文件时会发生什么？字符替换是否发生在坏字符上，还是发生了其他情况？
使用 open 与“>:utf8”等图层和“>:encoding(utf8)”等图层有什么区别？这两种方法都可以与“utf8”和“UTF-8”一起使用吗？

最佳答案

<表类=“s-表”><标题>读取时，
除序列长度之外的无效编码读取时、
Unicode 之外、
Unicode 非字符或
Unicode 代理写入时、
Unicode 之外、
Unicode 非字符或
Unicode 代理 <正文> :encoding(UTF-8) 警告和替换警告和替换警告和替换 :encoding(utf8) 警告和替换接受警告和输出 :utf8 损坏的标量接受警告和输出

(这是 Perl 5.26 中的状态。)

请注意:encoding(UTF-8)实际上使用 utf8 进行解码，然后检查结果字符是否在可接受的范围内。这减少了因错误输入而产生的错误消息的数量，所以这是很好的。

(编码名称不区分大小写。)

<小时/>

用于生成上表的测试:

正在阅读

:encoding(UTF-8)

  $ printf "\xC3\xA9\n\xEF\xBF\xBF\n\xED\xA0\x80\n\xF8\x88\x80\x80\x80\n\x80\n" |
     perl -MB -nle'
        use open ":std", ":encoding(UTF-8)";
        my $sv = B::svref_2object(\$_);
        printf "%vX%s (internal: %vX, UTF8=%d)\n", $_, length($_)==1 ? "" : " = $_", $sv->PVX, utf8::is_utf8($_);
     '
  utf8 "\xFFFF" does not map to Unicode.
  utf8 "\xD800" does not map to Unicode.
  utf8 "\x200000" does not map to Unicode.
  utf8 "\x80" does not map to Unicode.
  E9 (internal: C3.A9, UTF8=1)
  5C.78.7B.46.46.46.46.7D = \x{FFFF} (internal: 5C.78.7B.46.46.46.46.7D, UTF8=1)
  5C.78.7B.44.38.30.30.7D = \x{D800} (internal: 5C.78.7B.44.38.30.30.7D, UTF8=1)
  5C.78.7B.32.30.30.30.30.30.7D = \x{200000} (internal: 5C.78.7B.32.30.30.30.30.30.7D, UTF8=1)
  5C.78.38.30 = \x80 (internal: 5C.78.38.30, UTF8=1)

:encoding(utf8)

  $ printf "\xC3\xA9\n\xEF\xBF\xBF\n\xED\xA0\x80\n\xF8\x88\x80\x80\x80\n\x80\n" |
     perl -MB -nle'
        use open ":std", ":encoding(utf8)";
        my $sv = B::svref_2object(\$_);
        printf "%vX%s (internal: %vX, UTF8=%d)\n", $_, length($_)==1 ? "" : " = $_", $sv->PVX, utf8::is_utf8($_);
     '
  utf8 "\x80" does not map to Unicode.
  E9 (internal: C3.A9, UTF8=1)
  FFFF (internal: EF.BF.BF, UTF8=1)
  D800 (internal: ED.A0.80, UTF8=1)
  200000 (internal: F8.88.80.80.80, UTF8=1)
  5C.78.38.30 = \x80 (internal: 5C.78.38.30, UTF8=1)

:utf8

  $ printf "\xC3\xA9\n\xEF\xBF\xBF\n\xED\xA0\x80\n\xF8\x88\x80\x80\x80\n\x80\n" |
     perl -MB -nle'
        use open ":std", ":utf8";
        my $sv = B::svref_2object(\$_);
        printf "%vX%s (internal: %vX, UTF8=%d)\n", $_, length($_)==1 ? "" : " = $_", $sv->PVX, utf8::is_utf8($_);
     '
  E9 (internal: C3.A9, UTF8=1)
  FFFF (internal: EF.BF.BF, UTF8=1)
  D800 (internal: ED.A0.80, UTF8=1)
  200000 (internal: F8.88.80.80.80, UTF8=1)
  Malformed UTF-8 character: \x80 (unexpected continuation byte 0x80, with no preceding start byte) in printf at -e line 4, <> line 5.
  0 (internal: 80, UTF8=1)

写入时

:encoding(UTF-8)

  $ perl -e'
     use open ":std", ":encoding(UTF-8)";
     print "\x{E9}\n";
     print "\x{FFFF}\n";
     print "\x{D800}\n";
     print "\x{20_0000}\n";
  ' >a
  Unicode non-character U+FFFF is not recommended for open interchange in print at -e line 4.
  Unicode surrogate U+D800 is illegal in UTF-8 at -e line 5.
  Code point 0x200000 is not Unicode, may not be portable in print at -e line 6.
  "\x{ffff}" does not map to utf8.
  "\x{d800}" does not map to utf8.
  "\x{200000}" does not map to utf8.

  $ od -t c a
  0000000 303 251  \n   \   x   {   F   F   F   F   }  \n   \   x   {   D
  0000020   8   0   0   }  \n   \   x   {   2   0   0   0   0   0   }  \n
  0000040

  $ cat a
  é
  \x{FFFF}
  \x{D800}
  \x{200000}

:encoding(utf8)

  $ perl -e'
     use open ":std", ":encoding(utf8)";
     print "\x{E9}\n";
     print "\x{FFFF}\n";
     print "\x{D800}\n";
     print "\x{20_0000}\n";
  ' >a
  Unicode surrogate U+D800 is illegal in UTF-8 at -e line 4.
  Code point 0x200000 is not Unicode, may not be portable in print at -e line 5.

  $ od -t c a
  0000000 303 251  \n 355 240 200  \n 370 210 200 200 200  \n
  0000015

  $ cat a
  é
  ▒
  ▒

:utf8
与 :encoding(utf8) 相同的结果.

使用 Perl 5.26 进行测试。

<小时/>

Encode::encode by default will replace invalid characters with a substitution character. Is that true even if you are passing the looser "utf8" as the encoding?

Perl 字符串是 32 位或 64 位字符的字符串，具体取决于构建。 utf8可以编码任何72位整数。因此，它能够对所有需要编码的字符进行编码。

关于perl - 使用 Encode::encode 和 "utf8"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49038533/

31

4

0

文章推荐： sql - 在自引用表上编写递归 SQL 查询

文章推荐： elasticsearch - 索引 Elasticsearch 中没有固定类型

文章推荐： sql-server - 计算列与当前日期时间？

perl - Perl 程序如何知道在哪里可以找到包含它使用的 Perl 模块的文件？
如果我的 Perl 程序使用 Perl 模块，它将如何确定在哪里可以找到包含模块代码的文件？例如，如果程序包含: use MyModule1; # Example 1 us
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 'perl' 不被识别为外部或内部命令 *帮助配置草莓 perl!*
我正在自学 Perl，并且在我的 Windows 8 64 位系统上安装了 Strawberry。 Strawberry 命令行似乎工作正常，我在 C 驱动器上的 Strawberry 文件夹中创建了
perl - 开发 Perl 和测试 Perl
我在 Perl 模块 IO::Socket::SSL 中发现了一个错误，我可能会修复它，但是，我担心测试修复。我从 Debian 下载了源码包(因为我打算为它制作一个 Debian 包或补丁)并查看了
perl - 如何从一个 perl 模块调用子程序到另一个 perl 模块？
我有一个 perl 文件，它使用了两个 perl 模块 A.pm 和 B.pm。但是在 B.pm 中我需要调用 A.pm 的子程序。即使我在 A.pm 中使用并尝试使用它，我仍然遇到未定义的错误。
perl - 在 Perl 运行时自动加载 perl 模块
有没有办法在 Perl 运行时加载整个模块？我原以为我用 autouse 找到了一个很好的解决方案，但以下代码无法编译: package tryAutouse2; use autouse 'tryAu
perl - 与 Perl 模块相比，Perl 程序是否有标准或最佳实践？
过去，我编写过许多 perl 模块，以及不止一些独立的 perl 程序，但我之前从未发布过多文件 perl 程序。我有一个几乎处于 beta 阶段的 perl 程序，它将被开源发布。它需要一些数据文
perl - 从不同的 perl 脚本访问 perl 子例程
我有 1 个 perl 脚本，我们在其中编写了几个子例程。例子: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} 现在，
perl - 阻止 Perl XS 模块默默地退回到纯 perl
似乎 CPAN 上的一些(很多？)模块部分是使用 XS 在 C 中实现的，如果需要，可以回退到纯 perl 实现。虽然这很聪明，但它显然会损害性能，我想知道它是否会发生，以便我可以解决问题。有没有一
perl - 在 perl 中自动安装 perl 依赖项
我对 perl 很陌生。我希望我可以从 perl 安装一些软件包，我这样做是这样的: perl -MCPAN -e 'install VM::EC2' 我猜它由于依赖而失败，它显示: Result:
perl - 如何编写 Perl 脚本来提取 Perl 包中每个子程序的源代码？
给定一个 Perl 包 Foo.pm，例如 package Foo; use strict; sub bar { # some code here } sub baz { # more
perl - 如何美化 Perl 生成的 Perl 代码？
我有一个用 Perl 编写的测试生成器。它生成连接到模拟器的测试。这些测试本身是用 Perl 编写的，并通过其 API 连接到模拟器。我希望生成的代码是人类可读的，这意味着我希望它能够正确缩进和格式化
perl - "perl"和 "perl -w"之间的区别？
我正在学习 Perl，非常新的用户。我可以知道这些 Perl 代码之间有什么区别吗？ #!/usr/bin/perl & #!/usr/bin/perl -w 最佳答案那不是 perl 代码，它是
perl - 如何使用多个版本的 Perl 在 Perl 模块中安装脚本？
我不认为这是一个重复的问题。这专门针对 Perl 模块附带的脚本。通常，在安装多个 Perl 版本时，您可以将 perl 可执行文件标记为版本号 (perl5.32)，这样它们就可以在 /whate
perl - 从 Perl 中的字符串执行整个 perl 程序
我有一个在文件中使用 Blowfish 加密的程序和第二个 perl 程序，它提示输入用于将其解密为字符串的密码，我希望不必将解密的源代码写入硬盘驱动器，尽管将它放在内存中并不是真正的问题，因为运行程
perl - Perl 6 的这一侧是否有针对惰性列表的 Perl 解决方案？
有没有人为 Perl 中的惰性求值列表找到了一个好的解决方案？我尝试了很多方法来改变类似的东西 for my $item ( map { ... } @list ) { } 进入懒惰的评估——例如，通
perl - 如何从 perl 脚本本身打印出正在运行的 perl 版本？
我安装了多个版本的 Perl。我已经指定了要使用的版本。但是为了验证，我想从 .pl 脚本本身输出 Perl 的版本。这可能吗？在 Perl 脚本中解析“perl --version”的输出似乎
perl - 如何打包我的 Perl 脚本以在没有 Perl 的机器上运行？
人们还经常问“我怎样才能编译 Perl？”而他们真正想要的是创建一个可以在机器上运行的可执行文件，即使他们没有安装 Perl。我知道有几种解决方案: perl2exe靛蓝之星它是商业的。我从未尝试
perl - 什么是对非 Perl 开发人员的有效 Perl 培训？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this

首页

博学

6Ren·AI

商城

perl - 使用 Encode::encode 和 "utf8"

正在阅读

写入时