gpt4 book ai didi

perl - 有没有比 kakasi 库更适合 gojûon 校对的东西?

转载 作者:行者123 更新时间:2023-12-04 04:00:42 26 4
gpt4 key购买 nike

“更好”主要意味着准确性,但我也对其他系统擅长的任何其他标准感兴趣。我采样了 Perl 绑定(bind) Text::Kakasi 以一种公认的有限方式的正确性,它可以很好地满足我们的需求。

use utf8;
use Encode;
use Text::Kakasi;
use Unicode::Collate;

my $k = Text::Kakasi->new(qw(-iutf8 -outf8 -JH));
my $c = Unicode::Collate->new;

print encode_utf8 $_ for
map { $_->[0] }
sort { $c->cmp($a->[1], $b->[1]) }
map { [$_, $k->get($_)] }
<DATA>;

__DATA__
アメリカ合衆国
アラブ首長国連邦
ロシア連邦
中国
南アフリカ共和国
日本
北京(ペキン)
大阪
東京

最佳答案

我知道的唯一其他(严重的)开源转换工具是N-gram ,不是最明确的名字......它有大量的字典,并且可能比卡卡西更好。但是我还没有看到任何比较。

编辑:

在这种情况下,我考虑了一个库比其他库“更好”的概念。可以做的一件事是使用 N-gram 的字典并针对 kakasi 运行它们。如果 kakasi 不能转换 N-gram 的某些条目,可以说 N-gram 更好,因为它的词典更丰富——提高了排序的准确性。

然而,由于基于汉字的词的语料库(需要转换成假名才能正确整理)不是有限的——姓氏是一个大问题,因为它们几乎可以以任何你能想象的方式阅读——有不是提供 100% 覆盖率的解决方案。但是OP要求一个“更好”的解决方案,而不是一个完美的解决方案......

关于perl - 有没有比 kakasi 库更适合 gojûon 校对的东西?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3896935/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com