Perl ord 和 chr 使用 unicode-6ren

Perl ord 和 chr 使用 unicode

转载作者：行者123 更新时间：2023-12-04 10:54:37

24

4

令我震惊的是，我刚刚发现 chr不适用于 Unicode，尽管它可以做一些事情。手册页几乎一目了然

Returns the character represented by that NUMBER in the character set. For example, chr(65)" is "A" in either ASCII or Unicode, and chr(0x263a) is a Unicode smiley face.

事实上，我可以使用打印笑脸

perl -e 'print chr(0x263a)'

但诸如 chr(0x00C0)不工作。我看到我的 perl v5.10.1 有点老了，但是当我在源代码中粘贴各种奇怪的字母时，一切都很好。

我尝试过有趣的事情，例如 use utf8和 use encoding 'utf8' ，我没试过像 use v5.12这样有趣的东西和 use feature 'unicode_strings'因为它们不适用于我的版本，所以我在玩 Encode::decode找出我不需要解码，因为我没有要解码的字节数组。我阅读的文档比以往任何时候都多，并且发现了很多有趣的东西，但没有任何帮助。它看起来有点像 Unicode Bug但没有给出可用的解决方案。而且我不关心整个字符串语义，我需要的只是一个微不足道的函数。

那么如何将数字转换为由与其对应的单个字符组成的字符串，例如 real_chr(0xC0) eq 'À'持有？

我得到的第一个答案解释了关于 IO 的一切，但我仍然不明白为什么

#!/usr/bin/perl -w
use strict;
use utf8;
use encoding 'utf8';

print chr(0x00C0) eq 'À' ? 'eq1' : 'ne1', " - ", chr(0x263a) eq '☺' ? 'eq1' : 'ne1', "\n";

print 'À' =~ /\w/ ? "match1" : "no_match1", " - ", chr(0x00C0) =~ /\w/ ? "match2" : "no_match2", "\n";

打印

ne1 - eq1
match1 - no_match2

表示手动输入的 'À'不同于 chr(0x00C0) .此外，前者是一个单词组成字符(正确!)，而后者不是(但应该是!)。

最佳答案

第一的，

perl -le'print chr(0x263A);'

是 buggy 。 Perl 甚至会告诉你:

Wide character in print at -e line 1.

这不符合“工作”的条件。因此，尽管它们在无法提供您想要的东西方面有所不同，但以下都没有给您想要的东西:

perl -le'print chr(0x263A);'

perl -le'print chr(0x00C0);'

要正确输出这些 Unicode 代码点的 UTF-8 编码，您需要告诉 Perl 使用 UTF-8 对 Unicode 点进行编码。

$ perl -le'use open ":std", ":encoding(UTF-8)"; print chr(0x263A);'
☺

$ perl -le'use open ":std", ":encoding(UTF-8)"; print chr(0x00C0);'
À

现在来看看“为什么”。

文件句柄只能传输字节，因此除非您另有说明，否则 Perl 文件句柄处理期望字节。这意味着您提供给 print 的字符串不能包含字节以外的任何内容，或者换句话说，它不能包含超过 255 的字符。输出正是您提供的:

$ perl -e'print map chr, 0x00, 0x65, 0xC0, 0xF0' | od -t x1
0000000 00 65 c0 f0
0000004

这很有用。这与您想要的不同，但这并没有错。如果你想要不同的东西，你只需要告诉 Perl 你想要什么。

通过添加 :encoding层，句柄现在需要一串 Unicode 字符，或者我称之为“文本”。该层告诉 Perl 如何将文本转换为字节。

$ perl -e'
   use open ":std", ":encoding(UTF-8)";
   print map chr, 0x00, 0x65, 0xC0, 0xF0, 0x263a;
' | od -t x1
0000000 00 65 c3 80 c3 b0 e2 98 ba
0000011

你的权利 chr不知道也不关心 Unicode。赞 length , substr , ord和 reverse , chr实现了一个基本的字符串函数，而不是一个 Unicode 函数。这并不意味着它不能用于处理文本字符串。如您所见，问题不在于 chr但是在你构建它之后你对字符串所做的事情。

字符是字符串的元素，字符是数字。这意味着一个字符串只是一个数字序列。是否将这些数字视为 Unicode 代码点(文本)、打包的 IP 地址或温度测量值完全取决于您和您将字符串传递给的函数。

以下是一些运算符的示例，它们确实为它们作为操作数接收的字符串分配了含义:

m//需要一串 Unicode 代码点。

connect期望表示 sockaddr_in 的字节序列结构体。

print带 handle 不带:encoding期待一个字节序列。

print带 handle :encoding期望一系列 Unicode 代码点。

等

So how can I convert a number into a string consisting of the single character corresponding with it, so that for example real_chr(0xC0) eq 'À' holds?

chr(0xC0) eq 'À'确实成立。你记得告诉 Perl 你使用 UTF-8 编码你的源代码，使用 use utf8; ?如果您没有告诉 Perl，Perl 实际上会在 RHS 上看到一个两个字符的字符串。

关于您添加的问题:
encoding有问题语用。我建议不要使用它。相反，使用

use open ':std', ':encoding(UTF-8)';

这将解决其中一个问题。您遇到的另一个问题是

chr(0x00C0) =~ /\w/

这是一个已知的错误，由于向后兼容的原因而故意破坏。也就是说，除非您请求更新版本的语言，如下所示:

use 5.014;    # use 5.012; *might* suffice.

一个可以追溯到 5.8 的解决方法:

my $x = chr(0x00C0);
utf8::upgrade($x);
$x =~ /\w/

关于Perl ord 和 chr 使用 unicode，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12291252/

24

4

0

文章推荐： c - strncmp 在解析器函数中失败

文章推荐： .net - 使用 T4MVC 指定部分 View 路径

chr(9)、chr(10)、chr(13)、chr(32)、chr(34)讲解
chr(9)、chr(10)、chr(13)、chr(32)、chr(34) 所有关于 ASCII码的表格：[url]http://www.asciitable.com/[/url] chr(13)
python - 将 chr(13) 写入文件时读取时会给出 chr(10)
一段简单的代码让我大吃一惊: if __name__ == '__main__': writen_text = chr(13) file = open('bug', 'w')
vb.net - 为什么 Chr(3) 是常量表达式而不是 Chr(172)？
如果我编写以下代码，ReSharper 将建议我将第一个变量 chr3 转换为常量，但不将第二个变量 chr127 转换为常量。 Public Class ClassX Public Sub
VB.net 将 chr(255) 返回为 chr(63)
我正在用 Visual Basic 编写一个程序，遇到了一个奇怪的问题。我正在通过串行端口将字符串发送到望远镜安装座。当我发送 check 字符串时，作用域可以返回 chr(0) 或 chr(255)
python - Python 中的 chr(128) .. chr(255) 有什么意义？
编辑:我说的是 Python 2.7 中的行为。 chr函数将 0 到 127 之间的整数转换为 ASCII 字符。例如 >>> chr(65) 'A' 我明白这在某些情况下是如何有用的，我明白为什么
c# - 将 QBasic CHR$(13)+CHR$(10) 转换为 C#
我正在尝试通过我的串行端口传递一个直接的 ASCII 文本命令，如下所示: string cmd = "Hello World. "; template.Serial.WriteLine(cmd);
javascript - PL/SQL CHR(13)||CHR(10) 返回 0
我正在使用 PL/SQL 中的电子邮件函数。单击按钮后 Javascript 调用该函数。这工作得很好。我的问题是我使用 PL/SQL 变量在 Javascript 中生成电子邮件正文。代码看起来像
windows - Windows 需要 CHR(10) 和 CHR(13) 吗？
我必须解决应用程序中的问题。该应用程序是部署到应用程序服务器的 Oracle Form。最后的表格是按下按钮的过程，假设是发送电子邮件。在按钮代码的末尾，它有一个 PL/SQL 代码调用 C:\内的
python - 为什么 chr(0x24) + chr(0x84) 的结果在 python 2 和 3 中不同
我使用 Python 来解决来自 exploit-exercises 的原星挑战.我对这段代码在 python 3 中的不同输出感到惊讶。 payload = chr(0x24) + chr(0x84
r - 更改数字格式而不创建类数 chr
例如，在西类牙，数字格式为:4.000.000,25(400 万又 1/4)。有没有一种方法可以在不将其更改为字符的情况下更改数字格式(最好是针对整个 R 项目)？现在我在所有数据帧上执行一个函数。
Python chr() 函数返回错误字符
我正在尝试编写一个简单的程序:在 while 循环中，它接受整数(保证在 0, 255 范围内)，将其转换为相应的字符并将该字符写入文件，直到输入整数为 -1。我用 C++ 写的，效果很好。代码是:
python - 如何将数字列表转换为相应的 chr()
c = list(range(97, 121)) 如果我打印它，它会给出 [97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109,
Python chr() 函数输出不正确
我在使用 chr() 函数时遇到问题。我的代码首先获取用户输入，将其放入一个数组中，然后使用 ord 函数将其转换为相应的数字值，并对关键字执行相同的操作。然后它使用 zip 函数将两个数组相加以获取
Python chr() 解释
所以我很确定这是一个愚蠢的问题，但我正试图更深入地了解 python chr() 函数。另外，我想知道是否可以始终将整数参数设置为三位数字，或者所有 ascii 值的长度都是固定的？ chr(20)
go - 相当于go中python的ord()、chr()？
python的chr()相当于什么？和 ord() golang 中的函数？ chr(97) = 'a' ord('a') = 97 最佳答案它们被支持为简单的conversions : ch :=
PHP chr()函数讲解
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章PHP chr()函数讲解由作者收集整理，如果你对这篇文章有兴趣，记得点
excel - 减少单元格中的换行数/chr(10)
我有一个 excel 表，其中的单元格具有可变数量的换行符，我想减少它，以便每个新行之间只有一个换行符。例如 HELLO WORLD GOODBYE 将修改为: HELLO WORLD GOODBY
德尔福XE3 : Chr Ansi Version?
我有自己的带有加密功能的 D6 pas 库。今天在XE3下尝试使用，发现里面有很多bug，因为unicode的原因。我尝试移植到 AnsiString，但在 chr(nnn) 上失败了，在 Delph
haskell - 将 chr 的输出格式更改为十六进制
假设我有 print [chr 0x49, chr 0x9f] 输出 "I\159" 当打印必须显示为转义序列的字符时，如何使 print 使用十六进制数字？这样我的输出就是: "I\x9f" 最佳答
python - 使用 Chr() 发送十六进制值会添加未知字节
我正在尝试通过串行连接发送文件(来自另一个开源项目)。然而，我在发送大文件时遇到了困难。文件长度无法正确转换。我通过声明使用 int 数组 encoded = [] 然后找到文件长度。类似的东西 f

首页

博学

6Ren·AI

商城

Perl ord 和 chr 使用 unicode