gpt4 book ai didi

perl - 我如何用 Perl 计算文本中的 "real"个单词?

转载 作者:行者123 更新时间:2023-12-04 04:17:48 24 4
gpt4 key购买 nike

我遇到了文本处理问题。我有一篇文章,我想知道有多少个“真实”的词。

这就是我所说的“真实”。文章通常包含各种标点符号,例如破折号,逗号,点等。我想知道的是有多少个单词,跳过像“-”破折号和“ ,"带空格的逗号等

我试过这样做:

my @words = split ' ', $article;
print scalar @words, "\n";

但这包括各种带有空格的标点符号。

所以我正在考虑使用这个:

my @words = grep { /[a-z0-9]/i } split ' ', $article;
print scalar @words, "\n";

这将匹配所有包含字符或数字的单词。您认为这种计算文章字数的方法是否足够好?

有谁知道 CPAN 上的某个模块可以执行此操作吗?

最佳答案

尝试使用:\W - 任何非单词字符,同时删除 _

解决方案

use strict;

my $article = 'abdc, dd_ff, 11i-11, ff44';

# case David's, but it didn't work with I'm or There's
$article =~ s/\'//g;
my $number_words = scalar (split /[\W_]+/, $article);

print $number_words;

关于perl - 我如何用 Perl 计算文本中的 "real"个单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11440902/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com