gpt4 book ai didi

perl - Encode::Guess 可以从 iso-8859-1 中分辨出 utf-8 吗?

转载 作者:行者123 更新时间:2023-12-04 15:11:28 25 4
gpt4 key购买 nike

我有一个字符串 $data,用 utf-8 编码。我假设我不知道这个字符串是 utf-8 还是 iso-8859-1。我想使用 Perl Encode::Guess 模块来查看它是一个还是另一个。我无法弄清楚这个模块是如何工作的。

我尝试了以下四种方法(来自 http://perldoc.perl.org/Encode/Guess.html):

use Encode::Guess qw/utf8 latin1/;

my $decoder = guess_encoding($data);

print "$decoder\n";

结果: iso-8859-1 或 utf8
use Encode::Guess qw/utf8 latin1/;

my $enc = guess_encoding($data, qw/utf8 latin1/);
ref($enc) or die "Can't guess: $enc";
my $utf8 = $enc->decode($data);

print "$utf8\n";

结果:无法猜测:encodage-windows.pl 第 25 行第 18110 行中的 iso-8859-1 或 utf8。
use Encode::Guess qw/utf8 latin1/;

my $decoder = Encode::Guess->guess($data);
die $decoder unless ref($decoder);
my $utf8 = $decoder->decode($data);

print "$utf8\n";

结果: iso-8859-1 或 utf8 在 encodage-windows.pl 第 30 行,第 18110 行。
use Encode::Guess qw/utf8 latin1/;

my $utf8 = Encode::decode("Guess", $data);

print "$utf8\n";

结果:/usr/local/lib/perl5/Encode.pm 第 175 行的 iso-8859-1 或 utf8。

我的第一个问题是:我应该使用哪种方法(如果有的话)?
我的第二个问题是:我应该做些什么改变才能完成这项工作?

最佳答案

我通常一次检查一个可能的编码,像这样

my $decoder = guess_encoding($data, 'utf8');
$decoder = guess_encoding($data, 'iso-8859-1') unless ref $decoder;
die $decoder unless ref $decoder;

printf "Decoding as %s\n\n", $decoder->name;
$data = $decoder->decode($data);

如果可能,它会选择 UTF-8,否则它会尝试 ISO-8859-1,要么选择那个,要么选择错误,所以对于每种编码,它都变成了一个简单的是/否结果,并且没有办法得出两个可能的结果(这是你得到的错误)。

关于perl - Encode::Guess 可以从 iso-8859-1 中分辨出 utf-8 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23015155/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com