gpt4 book ai didi

regex - 查找 unicode 字符串的十六进制代码

转载 作者:行者123 更新时间:2023-11-29 09:28:23 25 4
gpt4 key购买 nike

我有一个 unicode 字符串,除了正常字符外,还包含一些奇怪的字符。我已经找到了其中一些字符的“UTF-16(十六进制)”编码,并使用一些简单的正则表达式将它们删除,例如:

$text =~ s/(\s+\x{200C}+|\x{200C}+\s+)/ /g;

上面一行是为了删除不必要的“零宽度非连接空格”。但是我在删除其余部分时遇到了一些困难。我想知道是否有一个工具或命令可以给它你的 unicode 字符串,它返回等效的“UTF-16(十六进制)”编码。所以,基本上我想用我的字符串(包含奇怪的字符)来提供它并获得字符的“UTF-16(十六进制)”编码,以便能够编写一些正则表达式来删除它们。我必须指出,我的文本主要是波斯语和阿拉伯语,而不是英语。


我得到了上述问题的答案,但我的整个问题仍然存在。实际上,我有一些字符,如“阿拉伯元音”,我想将它们从我的字符串中删除。当我在 perl 中找到这些字符的代码时,我写了一行来删除它们:

$text =~ s/\x{0618}\x{0619}\x{0621}\x{064B}\x{064C}\x{064D}\x{064E}\x{064F}\x{0650}\x{0651}\x{0652}\x{0653}\x{0654}\x{0655}\x{0656}\x{0657}\x{0658}\x{0659}\x{065A}\x{065B}\x{065C}\x{065D}\x{065E}\x{FC5E}\x{FC5F}\x{FC60}\x{FC60}\x{FC61}\x{FC62}\x{FE80}//g;

但奇怪的是,它并不适用于所有情况。例如“Arabic Kasra (\x{0650})”应该被这行代码检测并替换,但事实并非如此。我已经提到,对于下面一行中的字符,它是有效的:

\x{064B}\x{064C}\x{064D}\x{064E}\x{064F}\x{065A}\x{065B}\x{065C}\x{065D}\x{065E}\x{FC5E}\x{FC5F}\x{FC60}\x{FC60}\x{FC61}\x{FC62}\x{FE80}

而对于其他人则不然:

\x{0618}\x{0619}\x{0621}\x{0650}\x{0651}\x{0652}\x{0653}\x{0654}\x{0655}\x{0656}\x{0657}\x{0658}\x{0659}

有什么想法吗?

谢谢,

最佳答案

U+200C的UTF-16le和UTF-16be编码是"\x0C\x20""\x20\x0C",不是"\x{200C}"。这与 UTF-16 无关。

您只需要字符编号的十六进制表示。 (它甚至与 Unicode 没有任何关系。)

  • 每个字符的十六进制:

    print(sprintf("%v04X", $str), "\n");
  • 有时是十六进制有时是八进制的非 ASCII 和不可打印的 ASCII 字符:

    use Data::Dumper qw( Dumper );
    local $Data::Dumper::Useqq = 1;
    local $Data::Dumper::Terse = 1;
    local $Data::Dumper::Indent = 0;
    print(Dumper($str), "\n");
  • 非 ASCII 和不可打印的 ASCII 字符的十六进制:

    my $lit = qq{"\Q$str\E"};
    $lit =~ s/([^\x20-\x7E])/ sprintf('\\x{%04X}', ord($1)) /eg;
    print("$lit\n");

关于regex - 查找 unicode 字符串的十六进制代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19497346/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com