perl - 如何在 Perl 中识别货币符号？-6ren

perl - 如何在 Perl 中识别货币符号？

转载作者：行者123 更新时间：2023-12-04 21:54:32

我遇到了一些麻烦。

我正在阅读一些文本并试图从中提取价格。我很好，但我正在尝试编写一些代码来从文本中的符号中确定货币的名称，if 语句类似于这些

if ($curr eq "\$"){
print CURRENCY "Currency: Dollars($curr)\n";
}
else {if($curr eq "£"){
print CURRENCY  "Currency: Pounds($curr)\n";
}
else {if($curr eq "€"){
print CURRENCY  "Currency: Euros($curr)\n";
}

现在这适用于 $ (显然必须转义)，但不适用于英镑符号或欧元符号。我认为这与 Unicode 编码有关，或者与我尝试用谷歌搜索该问题时类似的东西有关，但我没有发现任何帮助。我想知道是否有人可以在这里帮助我!

最佳答案

如何谈论 Unicode 字符

听起来您的编码有问题。你的 Perl 程序的源代码中似乎有 Unicode 字符。你需要使用这个编译指示(这是一个小写模块名称的奇特方式，它就像编译器指令一样):

use utf8;

将其放在程序的顶部，然后确保您实际上是使用知道将其保存为 UTF-8 文本的编辑器对其进行编辑。您可以使用 file命令，如果你有它来验证它说该文件是 UTF-8。

另一种不需要 Perl 源代码为 UTF-8 格式的替代方法是使用代码点编号或 Unicode 字符名称而不是文字。要获取命名的 Unicode 字符，请使用以下编译指示:

use charnames qw[ :full ];

现在您可以使用 "\N{…}"谈论命名字符的符号:

$pound_sign = "\N{POUND SIGN}";
$euro_sign  = "\N{EURO SIGN}";

另一种方法是使用数字代码点，如果你知道的话:

$pound_sign = chr(163);
$euro_sign  = chr(0x20AC);

如果需要，您也可以在字符串和模式中使用确切的数字:

if ($text =~ /\xA3/) { … }     # POUND SIGN

if ($text =~ /\x{20AC}/) { … } # EURO SIGN

这将使您不必在 Perl 源代码中放置非 ASCII，这可能是一个好主意，即使像这样的文字魔数(Magic Number)可能不是。但是，您仍然必须考虑到您的数据源处于某种编码或另一种编码中。我将假设它采用某种 Unicode 编码，可能是 UTF-8。我希望它不是来自 Oracle 的 CESU-8 或 Java 的“修改后的 UTF-8”。

Unicode ‘Currency_Symbol’ 属性

检测文本中由单个 Unicode 字符表示的任意货币符号的唯一正确方法是检测 Unicode 货币符号属性 \p{Sc}。或 \p{Currency_Symbol} .

这些是 Unicode 属性，它们是可以在正则表达式中使用的字符类。

你会想说类似的话

if ($curr =~ /^\p{Sc}$/) { ... }

但要使其正常工作，您必须阅读 $curr来自 :utf8 中的输入源编码。在您自己的来源中，您会说:

use utf8;

在你打开的文件中，你会说其中之一:

# put at the top of your file and be done with it
use open qw[ :std :utf8 ];

# or else when opening a new handle
open(my $new_handle, "< :encoding(utf8)", "/path/to/file")
    || die "can't open /path/to/file: $!";

# if handle already opened, then just
binmode($already_opened_handle, ":encoding(utf8)")
     || die "can't binmode: $!";

从技术上讲，您可能应该使用 :encoding(utf8)除了 use utf8;在你自己的源文件中，这样你就不会被欺骗。不要问。 ☹

如果你正在使用像 CGI.pm 这样的模块或 XML::Simple ，它应该可以正常工作-但这取决于。

货币符号字符的属性

这是完整的交易:

% uniprops -vag € 'POUND SIGN'
U+20AC ‹€› \N{ EURO SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InCurrencySymbols} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph}
       \p{GrBase} \p{Print} \p{Symbol}
    \p{Age:2.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Currency_Symbols}
       \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered} \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR}
       \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol} \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:A}
       \p{East_Asian_Width=Ambiguous} \p{East_Asian_Width:Ambiguous} \p{Ea=A} \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S}
       \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol} \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX}
       \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA} \p{Hangul_Syllable_Type=Not_Applicable}
       \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup} \p{Joining_Type:Non_Joining} \p{Jt=U}
       \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric} \p{Line_Break:Prefix_Numeric} \p{Lb=PR}
       \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1}
       \p{In=3.1} \p{Present_In:3.2} \p{In=3.2} \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1}
       \p{In=5.1} \p{Present_In:5.2} \p{In=5.2} \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX}
       \p{Sentence_Break=Other} \p{Word_Break:Other} \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}
U+00A3 ‹£› \N{ POUND SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InLatin1} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph} \p{GrBase}
       \p{Pat_Syn} \p{Pattern_Syntax} \p{PatSyn} \p{Print} \p{Symbol}
    \p{Age:1.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Latin_1}
       \p{Block=Latin_1_Supplement} \p{Block:Latin_1_Supplement} \p{Blk=Latin1} \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered}
       \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR} \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol}
       \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:Na} \p{East_Asian_Width=Narrow} \p{East_Asian_Width:Narrow} \p{Ea=Na}
       \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S} \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol}
       \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX} \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA}
       \p{Hangul_Syllable_Type=Not_Applicable} \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup}
       \p{Joining_Type:Non_Joining} \p{Jt=U} \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric}
       \p{Line_Break:Prefix_Numeric} \p{Lb=PR} \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:1.1} \p{Age=1.1} \p{In=1.1}
       \p{Present_In:2.0} \p{In=2.0} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1} \p{In=3.1} \p{Present_In:3.2} \p{In=3.2}
       \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1} \p{In=5.1} \p{Present_In:5.2} \p{In=5.2}
       \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX} \p{Sentence_Break=Other} \p{Word_Break:Other}
       \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}

查找所有\p{Sc} 字符

这里是所有 46 个带有 Sc 的 Unicode 字符。又名 Currency_Symbol属性，截至 Unicode 5.2:(抱歉格式问题；我相信这是由于方向性造成的)

 % unichars -a '\p{Sc}' | wc -l
       46

 % unichars -a '\p{Sc}'
 $      36 000024 DOLLAR SIGN
 ¢     162 0000A2 CENT SIGN
 £     163 0000A3 POUND SIGN
 ¤     164 0000A4 CURRENCY SIGN
 ¥     165 0000A5 YEN SIGN
 ؋    1547 00060B AFGHANI SIGN
 ৲    2546 0009F2 BENGALI RUPEE MARK
 ৳    2547 0009F3 BENGALI RUPEE SIGN
 ৻    2555 0009FB BENGALI GANDA MARK
 ૱    2801 000AF1 GUJARATI RUPEE SIGN
 ௹    3065 000BF9 TAMIL RUPEE SIGN
 ฿    3647 000E3F THAI CURRENCY SYMBOL BAHT
 ៛    6107 0017DB KHMER CURRENCY SYMBOL RIEL
 ₠    8352 0020A0 EURO-CURRENCY SIGN
 ₡    8353 0020A1 COLON SIGN
 ₢    8354 0020A2 CRUZEIRO SIGN
 ₣    8355 0020A3 FRENCH FRANC SIGN
 ₤    8356 0020A4 LIRA SIGN
 ₥    8357 0020A5 MILL SIGN
 ₦    8358 0020A6 NAIRA SIGN
 ₧    8359 0020A7 PESETA SIGN
 ₨    8360 0020A8 RUPEE SIGN
 ₩    8361 0020A9 WON SIGN
 ₪    8362 0020AA NEW SHEQEL SIGN
 ₫    8363 0020AB DONG SIGN
 €    8364 0020AC EURO SIGN
 ₭    8365 0020AD KIP SIGN
 ₮    8366 0020AE TUGRIK SIGN
 ₯    8367 0020AF DRACHMA SIGN
 ₰    8368 0020B0 GERMAN PENNY SIGN
 ₱    8369 0020B1 PESO SIGN
 ₲    8370 0020B2 GUARANI SIGN
 ₳    8371 0020B3 AUSTRAL SIGN
 ₴    8372 0020B4 HRYVNIA SIGN
 ₵    8373 0020B5 CEDI SIGN
 ₶    8374 0020B6 LIVRE TOURNOIS SIGN
 ₷    8375 0020B7 SPESMILO SIGN
 ₸    8376 0020B8 TENGE SIGN
 ꠸   43064 00A838 NORTH INDIC RUPEE MARK
 ﷼   65020 00FDFC RIAL SIGN
 ﹩   65129 00FE69 SMALL DOLLAR SIGN
 ＄   65284 00FF04 FULLWIDTH DOLLAR SIGN
 ￠   65504 00FFE0 FULLWIDTH CENT SIGN
 ￡   65505 00FFE1 FULLWIDTH POUND SIGN
 ￥   65509 00FFE5 FULLWIDTH YEN SIGN
 ￦   65510 00FFE6 FULLWIDTH WON SIGN

而这里是 BMP 中尚未出现在 Unicode 4.1 中的那些；请注意如何结合属性和否定来提取 Unicode 字符集。

% unichars --bmp '\p{Sc}' '\P{In:4.1}'
 ৻  2555 09FB BENGALI GANDA MARK
 ₶  8374 20B6 LIVRE TOURNOIS SIGN
 ₷  8375 20B7 SPESMILO SIGN
 ₸  8376 20B8 TENGE SIGN
 ꠸ 43064 A838 NORTH INDIC RUPEE MARK

如果您没有 unichars和 uniprops在你的系统上，给我发邮件，我会发给你。它们是纯 Perl 中的小型实用程序，不需要额外的模块。

关于perl - 如何在 Perl 中识别货币符号？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4180316/

文章推荐： uml - 调度程序是否应该是用例图中的参与者

perl - Perl 程序如何知道在哪里可以找到包含它使用的 Perl 模块的文件？
如果我的 Perl 程序使用 Perl 模块，它将如何确定在哪里可以找到包含模块代码的文件？例如，如果程序包含: use MyModule1; # Example 1 us
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 'perl' 不被识别为外部或内部命令 *帮助配置草莓 perl!*
我正在自学 Perl，并且在我的 Windows 8 64 位系统上安装了 Strawberry。 Strawberry 命令行似乎工作正常，我在 C 驱动器上的 Strawberry 文件夹中创建了
perl - 开发 Perl 和测试 Perl
我在 Perl 模块 IO::Socket::SSL 中发现了一个错误，我可能会修复它，但是，我担心测试修复。我从 Debian 下载了源码包(因为我打算为它制作一个 Debian 包或补丁)并查看了
perl - 如何从一个 perl 模块调用子程序到另一个 perl 模块？
我有一个 perl 文件，它使用了两个 perl 模块 A.pm 和 B.pm。但是在 B.pm 中我需要调用 A.pm 的子程序。即使我在 A.pm 中使用并尝试使用它，我仍然遇到未定义的错误。
perl - 在 Perl 运行时自动加载 perl 模块
有没有办法在 Perl 运行时加载整个模块？我原以为我用 autouse 找到了一个很好的解决方案，但以下代码无法编译: package tryAutouse2; use autouse 'tryAu
perl - 与 Perl 模块相比，Perl 程序是否有标准或最佳实践？
过去，我编写过许多 perl 模块，以及不止一些独立的 perl 程序，但我之前从未发布过多文件 perl 程序。我有一个几乎处于 beta 阶段的 perl 程序，它将被开源发布。它需要一些数据文
perl - 从不同的 perl 脚本访问 perl 子例程
我有 1 个 perl 脚本，我们在其中编写了几个子例程。例子: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} 现在，
perl - 阻止 Perl XS 模块默默地退回到纯 perl
似乎 CPAN 上的一些(很多？)模块部分是使用 XS 在 C 中实现的，如果需要，可以回退到纯 perl 实现。虽然这很聪明，但它显然会损害性能，我想知道它是否会发生，以便我可以解决问题。有没有一
perl - 在 perl 中自动安装 perl 依赖项
我对 perl 很陌生。我希望我可以从 perl 安装一些软件包，我这样做是这样的: perl -MCPAN -e 'install VM::EC2' 我猜它由于依赖而失败，它显示: Result:
perl - 如何编写 Perl 脚本来提取 Perl 包中每个子程序的源代码？
给定一个 Perl 包 Foo.pm，例如 package Foo; use strict; sub bar { # some code here } sub baz { # more
perl - 如何美化 Perl 生成的 Perl 代码？
我有一个用 Perl 编写的测试生成器。它生成连接到模拟器的测试。这些测试本身是用 Perl 编写的，并通过其 API 连接到模拟器。我希望生成的代码是人类可读的，这意味着我希望它能够正确缩进和格式化
perl - "perl"和 "perl -w"之间的区别？
我正在学习 Perl，非常新的用户。我可以知道这些 Perl 代码之间有什么区别吗？ #!/usr/bin/perl & #!/usr/bin/perl -w 最佳答案那不是 perl 代码，它是
perl - 如何使用多个版本的 Perl 在 Perl 模块中安装脚本？
我不认为这是一个重复的问题。这专门针对 Perl 模块附带的脚本。通常，在安装多个 Perl 版本时，您可以将 perl 可执行文件标记为版本号 (perl5.32)，这样它们就可以在 /whate
perl - 从 Perl 中的字符串执行整个 perl 程序
我有一个在文件中使用 Blowfish 加密的程序和第二个 perl 程序，它提示输入用于将其解密为字符串的密码，我希望不必将解密的源代码写入硬盘驱动器，尽管将它放在内存中并不是真正的问题，因为运行程
perl - Perl 6 的这一侧是否有针对惰性列表的 Perl 解决方案？
有没有人为 Perl 中的惰性求值列表找到了一个好的解决方案？我尝试了很多方法来改变类似的东西 for my $item ( map { ... } @list ) { } 进入懒惰的评估——例如，通
perl - 如何从 perl 脚本本身打印出正在运行的 perl 版本？
我安装了多个版本的 Perl。我已经指定了要使用的版本。但是为了验证，我想从 .pl 脚本本身输出 Perl 的版本。这可能吗？在 Perl 脚本中解析“perl --version”的输出似乎
perl - 如何打包我的 Perl 脚本以在没有 Perl 的机器上运行？
人们还经常问“我怎样才能编译 Perl？”而他们真正想要的是创建一个可以在机器上运行的可执行文件，即使他们没有安装 Perl。我知道有几种解决方案: perl2exe靛蓝之星它是商业的。我从未尝试
perl - 什么是对非 Perl 开发人员的有效 Perl 培训？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

perl - 如何在 Perl 中识别货币符号？