perl - 将十六进制转换为 UTF8 在 perl 中无法按预期工作-6ren

perl - 将十六进制转换为 UTF8 在 perl 中无法按预期工作

转载作者：行者123 更新时间：2023-12-02 09:05:21

我正在尝试理解 perl 中的 UTF8。

我有以下字符串 Alizéh。如果我查找此字符串的十六进制，我会从 https://onlineutf8tools.com/convert-utf8-to-hexadecimal 得到 416c697ac3a968 (这与该字符串的原始来源匹配)。

所以我认为打包十六进制并将其编码为 utf8 应该会生成 unicode 字符串。但它产生了一些非常不同的东西。

有谁能解释我的错误吗？

这是一个简单的测试程序来展示我的工作。

#!/usr/bin/perl

use strict;
use warnings;

use Text::Unaccent;
use Encode;

use utf8;
binmode STDOUT, ':encoding(UTF-8)';

print "First test that the utf8 string Alizéh prints as expected\n\n";

print "=========================================== Hex to utf8 test start\n";

my $hexRepresentationOfTheString = '416c697ac3a968';
my $packedHexIntoPlainString = pack("H*", $hexRepresentationOfTheString);
print "The hex of the string is $hexRepresentationOfTheString\n";
print "The string after packing prints as $packedHexIntoPlainString\n";
utf8::encode($packedHexIntoPlainString);
print "Utf8 encoding the string produces $packedHexIntoPlainString\n";

print "=========================================== Hex to utf8 test finish\n\n";

print "=========================================== utf8 from code test start\n";
my $utf8FromCode = "Alizéh";
print "Variable prints as $utf8FromCode\n";

my ($hex) = unpack("H*", $utf8FromCode);

print "Hex of this string is now $hex\n";

print "Decoding the utf8 string\n";
utf8::decode($utf8FromCode);

$hex = unpack ("H*", $utf8FromCode);
print "Hex string is now         $hex\n";

print "=========================================== utf8 from code test finish\n\n";

这打印:

First test that the utf8 string Alizéh prints as expected

=========================================== Hex to utf8 test start
The hex of the string is 416c697ac3a968
The string after packing prints as AlizÃ©h
Utf8 encoding the string produces AlizÃÂ©h
=========================================== Hex to utf8 test finish

=========================================== utf8 from code test start
Variable prints as Alizéh
Hex of this string is now 416c697ae968
Decoding the utf8 string
Hex string is now         416c697ae968
=========================================== utf8 from code test finish

关于如何获取 UTF8 字符串的十六进制值并将其转换为 perl 中有效的 UTF8 标量的任何提示？

我将在这个扩展版本中解释一些更奇怪的地方

#!/usr/bin/perl

use strict;
use warnings;

use Text::Unaccent;
use Encode;

use utf8;
binmode STDOUT, ':encoding(UTF-8)';

print "First test that the utf8 string Alizéh prints as expected\n\n";

print "=========================================== Hex to utf8 test start\n";

my $hexRepresentationOfTheString = '416c697ac3a968';
my $packedHexIntoPlainString = pack("H*", $hexRepresentationOfTheString);
print "The hex of the string is $hexRepresentationOfTheString\n";
print "The string after packing prints as $packedHexIntoPlainString\n";
utf8::encode($packedHexIntoPlainString);
print "Utf8 encoding the string produces $packedHexIntoPlainString\n";

print "=========================================== Hex to utf8 test finish\n\n";

print "=========================================== utf8 from code test start\n";
my $utf8FromCode = "Alizéh";
print "Variable prints as $utf8FromCode\n";

my ($hex) = unpack("H*", $utf8FromCode);

print "Hex of this string is now $hex\n";

print "Decoding the utf8 string\n";
utf8::decode($utf8FromCode);

$hex = unpack ("H*", $utf8FromCode);
print "Hex string is now         $hex\n";

print "=========================================== utf8 from code test finish\n\n";

print "=========================================== Unaccent test start\n";

my $plaintest = unac_string('utf8', "Alizéh");

print "Alizéh passed to the unaccent gives $plaintest\n";


my $cleanpackedHexIntoPlainString = pack("H*", $hexRepresentationOfTheString);
print "Packed version of the hex string prints as  $cleanpackedHexIntoPlainString\n";

my $packedtest = unac_string('utf8', $cleanpackedHexIntoPlainString);

print "Unaccenting the packed version gives $packedtest\n";

utf8::encode($cleanpackedHexIntoPlainString);
print "encoding the packed version it now prints as $cleanpackedHexIntoPlainString\n";

$packedtest = unac_string('utf8', $cleanpackedHexIntoPlainString);

print "Now unaccenting the packed version gives $packedtest\n";

print "=========================================== Unaccent test finish\n\n";

这打印:

First test that the utf8 string Alizéh prints as expected

=========================================== Hex to utf8 test start
The hex of the string is 416c697ac3a968
The string after packing prints as AlizÃ©h
Utf8 encoding the string produces AlizÃÂ©h
=========================================== Hex to utf8 test finish

=========================================== utf8 from code test start
Variable prints as Alizéh
Hex of this string is now 416c697ae968
Decoding the utf8 string
Hex string is now         416c697ae968
=========================================== utf8 from code test finish

=========================================== Unaccent test start
Alizéh passed to the unaccent gives Alizeh
Packed version of the hex string prints as  AlizÃ©h
Unaccenting the packed version gives Alizeh
encoding the packed version it now prints as AlizÃÂ©h
Now unaccenting the packed version gives AlizAÂ©h
=========================================== Unaccent test finish

在这个测试中，似乎 unaccent 库接受字符串 hex 的压缩版本。我不确定为什么，有人可以帮助我理解为什么会这样吗？

最佳答案

Unicode 字符串是 Perl 中的一流值，您无需跳过这些步骤。你只需要识别和跟踪什么时候有字节，什么时候有字符，Perl 不会为你区分，所有字节串也是有效的字符串。实际上，您正在对字符串进行双重编码，这些字符串仍然有效，因为 UTF-8 编码字节表示(对应于的字符)您的 UTF-8 编码字节。

use utf8; 将从 UTF-8 解码您的源代码，因此通过声明您的以下文字字符串已经是 unicode 字符串并且可以传递给任何正确接受字符的 API。要从一串 UTF-8 字节中获取相同的内容(正如您通过打包字节的十六进制表示生成的那样)，请使用 decode from Encode (或我的 nicer wrapper )。

use strict;
use warnings;
use utf8;
use Encode 'decode';

my $str = 'Alizéh'; # already decoded
my $hex = '416c697ac3a968';
my $bytes = pack 'H*', $hex;
my $chars = decode 'UTF-8', $bytes;

Unicode 字符串需要编码为 UTF-8，以便输出到需要字节的内容，例如 STDOUT； :encoding(UTF-8) 层可以应用于此类句柄以自动执行此操作，同样可以从输入句柄自动解码。应该应用什么的确切性质完全取决于你的角色来自哪里以及他们要去哪里。参见 this answer有关可用选项的太多信息。

use Encode 'encode';
print encode 'UTF-8', "$chars\n";
binmode *STDOUT, ':encoding(UTF-8)'; # warning: global effect
print "$chars\n";

关于perl - 将十六进制转换为 UTF8 在 perl 中无法按预期工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59276286/

文章推荐： sql - 有没有办法重写这个语句而不需要子查询？

文章推荐： sql - 在 WHERE 子句中按 TO_CHAR() 过滤

文章推荐： vue.js - Vue Js 中 mixins 的最佳实践是什么？

文章推荐： Perl 与 Aspell 的接口(interface)

Java 十六进制
我有一个消息 static int[] message = { 0x01, 0x10, 0x00, 0x01, // port addres 01 - 08
Python 十六进制
如何将十进制转换为以下格式的十六进制(至少两位，零填充，不带 0x 前缀)？输入:255 输出:ff 输入:2 输出:02 我尝试了 hex(int)[2:] 但它似乎显示了第一个示例而不是第二个示
Delphi编程将66位值(十六进制)转换为十进制
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: Large numbers in Pascal (Delphi) 我正在尝试将 66 位值转换为十进制。我注意到d
elisp - 转换十进制<->十六进制
给定一个十进制数字列表，如何将每个数字转换为其等效的十六进制值，反之亦然？例如: (convert2hex 255 64 64)； ->(FF 40 40) (convert2dec FF 40 4
javascript - 将字符串化的数字解析回数字。十六进制
var color = Math.floor(Math.random() * 16777215).toString(16); var hex = Number.parseInt(col
numbers - 0x00000000 十六进制？
我一直被教导 0-9 代表 0 到 9 的值，A、B、C、D、E、F 代表 10-15。我看到这种格式 0x00000000，它不适合十六进制模式。有没有导游或导师可以解释一下？我在谷歌上搜索了十
c++ - 读取文件为二进制/十六进制
我目前正尝试像十六进制编辑器一样将文件读取为十六进制值。为了解释这个问题，让我们假设我有一个test.txt，里面有一个简单的“Hello world”。我正在尝试使用接近以下代码的程序以十六进制形式
jQuery - 获取元素背景颜色(十六进制)
我正在尝试获取元素背景颜色 $(document).ready(function(){ $.each('.log-widget',function(){ console.log($(t
Lua - 十六进制 float
0x40130020的十六进制值是 2.296883 的浮点值, 使用本网站 http://gregstoll.dyndns.org/~gregstoll/floattohex/ .这如何实现到 Lu
ios - 十六进制 - 什么编码？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，vis
c++ - 转换字符 > 十六进制
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
十六进制 float 表示的计算值
谁能解释一下我们如何计算十六进制浮点常量的值。我在看书，发现0x0.3p10代表值192。最佳答案指数仍以十进制表示，但底数为二，尾数为十六进制。所以 0.3P10 是 (3 × 16−1) ×
PHP - 根据给定变量计算颜色(十六进制)
我正在尝试创建一个标签云，需要帮助来创建一个函数来计算应用于每个标签链接所需的颜色。我有 3 个变量: 单个标签重要性(从 0.1 到 1) 最大(最重要)的标签颜色(十六进制代码，例如“fff00
c# - 最短编码，十六进制
大家好，我想发送尽可能短的字符串/值。如果我有以下内容 1)l23k43i221j44h55uui6n433bb4 2)124987359824369785493584379 3)kla^askdja
CSS 十六进制 RGBA？
我知道你会写... background-color: #ff0000; ...如果你想要红色的东西。你可以写... background-color: rgba(255, 0, 0, 0.5);
binary - 如何将我的二进制(十六进制)数据转换为纬度和经度？
我有一些传递地理位置坐标的二进制数据流 - 纬度和经度。我需要找到它们编码的方法。 4adac812 = 74°26.2851' = 74.438085 2b6059f9 = 43°0.2763'
sql - 在sqlite中删除9D(十六进制)字符
我想从 my_table 中选择 family，其中 family LIKE '%HEX(9D)' 家庭十六进制格式以 9D 十六进制结尾我将excel文件转换为sqlite数据库但是我的一些数据
binary - 三路二进制(十六进制)文件比较工具？
我有一组二进制配置文件，每个文件有三个版本——每个文件的原始版本和两个不同修改的版本。我需要能够同时看到两个版本和原始版本之间的差异。我需要的是一个二进制文件的三向差异工具。通过相当费力的谷歌搜索，
powershell - 将字节数组(十六进制)转换为有符号的Int
我正在尝试将(可变长度)十六进制字符串转换为带符号整数(我需要正值或负值)。 [Int16] [int 32]和[int64] 似乎可以在2,4+字节长的十六进制字符串上正常工作，但我在使用3个字节的
facebook - 如何在Facebook中使用unicode(十六进制)输出字符？
如何将十六进制的 unicode 写入 Facebook“您在想什么”框？我尝试过写: \u00B9 "\u00B9" ¹ "¹" 到目前为止没有任何效果 (让我补充一下，我是在 M

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

perl - 将十六进制转换为 UTF8 在 perl 中无法按预期工作