gpt4 book ai didi

unicode - 如何使 Perl 6 对 Unicode 数据进行往返安全?

转载 作者:行者123 更新时间:2023-12-04 07:18:37 27 4
gpt4 key购买 nike

一个简单的 Perl 6 程序对于 Unicode 来说不是往返安全的。看起来好像它在内部对 Str 类型使用规范化形式组合(NFC):

$ perl -CO -E 'say "e\x{301}"' | perl6 -ne '.say' | perl -CI -ne 'printf "U+%04x\n", ord for split //'
U+00e9
U+000a

翻阅文档我看不到任何关于这种行为的信息,我觉得这非常令人震惊。我不敢相信你必须回到字节级别来往返文本:
$ perl -CO -E 'say "e\x{301}"' | perl6 -e 'while (my $byte = $*IN.read(1)) { $*OUT.write($byte) }' | perl -CI -ne 'printf "U+%04x\n", ord for split //'
U+0065
U+0301
U+000a

是否所有文本文件都必须在 NFC 中才能与 Perl 6 安全往返?如果文档应该在 NFD 中怎么办?我一定在这里遗漏了一些东西。我不敢相信这是故意的行为。

最佳答案

答案似乎是使用 Uni 类型(NFD、NFC 等的基类),但现在并没有真正做到这一点,并且没有将文件转换为 Uni 字符串的好方法。因此,直到将来某个未命名的时间点之前,您都无法往返非规范化文件,除非您将其视为字节。

关于unicode - 如何使 Perl 6 对 Unicode 数据进行往返安全?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39663846/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com