regex - 如何使用正则表达式(在 Perl 或 *nix 终端中)匹配庞大语料库中列表中的单词？-6ren

regex - 如何使用正则表达式(在 Perl 或 *nix 终端中)匹配庞大语料库中列表中的单词？

转载作者：行者123 更新时间：2023-12-01 01:05:44

28

4

来自 .txt 文件中的给定名词列表，其中名词用新行分隔，例如:

hooligan
football
brother
bollocks

...以及一个单独的 .txt 文件，其中包含一系列由换行符分隔的正则表达式，如下所示:

[a-z]+\tNN(S)?
[a-z]+\tJJ(S)?

...我想通过语料库的每个句子运行正则表达式，并且每次正则表达式匹配一个模式时，如果该模式包含名词列表中的一个名词，我想在输出和(用制表符分隔)匹配它的正则表达式。以下是结果输出的示例:

football    [a-z]+NN(S)?\'s POS[a-z]+NN(S)?
hooligan    [a-z]+NN(S)?,,[a-z]+JJ[a-z]+NN(S)?
hooligan    [a-z]+NN(S)?,,[a-z]+JJ[a-z]+NN(S)?
football    [a-z]+NN(S)?[a-z]+NN(S)?
brother [a-z]+PP$[a-z]+NN(S)?
bollocks    [a-z]+DT[a-z]+NN(S)?
football    [a-z]+NN(s)?(be)VBZnotRB

我将使用的语料库很大(数十 GB)并且具有以下格式(每个句子都包含在标签 <s> 中):

<s>
Hooligans   hooligan    NNS 1   4   NMOD
,   ,   ,   2   4   P
unbridled   unbridled   JJ  3   4   NMOD
passion passion NN  4   0   ROOT
-   -   :   5   4   P
and and CC  6   4   CC
no  no  DT  7   9   NMOD
executive   executive   JJ  8   9   NMOD
boxes   box NNS 9   4   COORD
.   .   SENT    10  0   ROOT
</s>
<s>
Hooligans   hooligan    NNS 1   4   NMOD
,   ,   ,   2   4   P
unbridled   unbridled   JJ  3   4   NMOD
passion passion NN  4   0   ROOT
-   -   :   5   4   P
and and CC  6   4   CC
no  no  DT  7   9   NMOD
executive   executive   JJ  8   9   NMOD
boxes   box NNS 9   4   COORD
.   .   SENT    10  0   ROOT
</s>
<s>
Portsmouth  Portsmouth  NP  1   2   SBJ
bring   bring   VVP 2   0   ROOT
something   something   NN  3   2   OBJ
entirely    entirely    RB  4   5   AMOD
different   different   JJ  5   3   NMOD
to  to  TO  6   5   AMOD
the the DT  7   12  NMOD
Premiership Premiership NP  8   12  NMOD
:   :   :   9   12  P
football    football    NN  10  12  NMOD
's  's  POS 11  10  NMOD
past    past    NN  12  6   PMOD
.   .   SENT    13  2   P
</s>
<s>
This    this    DT  1   2   SBJ
is  be  VBZ 2   0   ROOT
one one CD  3   2   PRD
of  of  IN  4   3   NMOD
Britain Britain NP  5   10  NMOD
's  's  POS 6   5   NMOD
most    most    RBS 7   8   AMOD
ardent  ardent  JJ  8   10  NMOD
football    football    NN  9   10  NMOD
cities  city    NNS 10  4   PMOD
:   :   :   11  2   P
think   think   VVP 12  2   COORD
Liverpool   Liverpool   NP  13  0   ROOT
or  or  CC  14  13  CC
Newcastle   Newcastle   NP  15  19  SBJ
in  in  IN  16  15  ADV
miniature   miniature   NN  17  16  PMOD
,   ,   ,   18  15  P
wound   wind    VVD 19  13  COORD
back    back    RB  20  19  ADV
three   three   CD  21  22  NMOD
decades decade  NNS 22  19  OBJ
.   .   SENT    23  2   P
</s>

我开始在 PERL 中编写一个脚本来实现我的目标，为了不让如此庞大的数据集耗尽内存，我使用了模块 Tie::File这样我的脚本将一次读取一行(而不是尝试打开内存中的整个语料库文件)。这将与每个句子对应一行的语料库完美配合，但在当前句子分布在更多行上并由标签分隔的情况下则不行。

有没有办法使用组合 unix 终端命令(例如 cat 和 grep)来实现我想要的？或者，这将是这个问题的最佳解决方案？ (一些代码示例会很棒)。

最佳答案

一个简单的正则表达式替换就足以从名词列表和 Regexp::Assemble 中提取匹配数据。可以处理识别来自其他文件的哪个模式匹配的要求。而且，正如 Jonathan Leffler 在他的评论中提到的那样，设置输入记录分隔符允许您一次读取一条记录，即使每条记录跨越多行。

将所有这些结合到一个运行示例中，我们得到:

#!/usr/bin/env perl    

use strict;
use warnings;
use 5.010;

use Regexp::Assemble;

my @nouns = qw( hooligan football brother bollocks );
my @patterns = ('[a-z]+\s+NN(S)?', '[a-z]+\s+JJ(S)?');

my $name_re = '(' . join('|', @nouns) . ')'; # Assumes no regex metacharacters

my $ra = Regexp::Assemble->new(track => 1);
$ra->add(@patterns);

local $/ = '<s>';

while (my $line = <DATA>) {
  my $match = $ra->match($line);
  next unless defined $match;

  while ($line =~ /$name_re/g) {
    say "$1\t\t$match";
  }
}


__DATA__
...

... __DATA__ 的内容在哪里section 是原始问题中提供的样本语料库。为了保持答案紧凑，我没有在此处包含它。另请注意，在这两种模式中，我都更改了 \t至 \s+ ;这是因为当我复制和粘贴您的样本语料库时，这些选项卡没有保留。

运行该代码，我得到输出:

hooligan        [a-z]+\s+NN(S)?
hooligan        [a-z]+\s+NN(S)?
football        [a-z]+\s+NN(S)?
football        [a-z]+\s+NN(S)?
football        [a-z]+\s+JJ(S)?
football        [a-z]+\s+JJ(S)?

编辑:更正了正则表达式。我最初更换了 \t与 \s ，使其匹配 NN或 JJ仅当前面正好有一个空格时。它现在还匹配多个空格，更好地模拟原始 \t .

关于regex - 如何使用正则表达式(在 Perl 或 *nix 终端中)匹配庞大语料库中列表中的单词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18884296/

28

4

0

文章推荐： python - 根据列值对行进行条件样式设置

文章推荐： ios6 - GKMatchRequest 邀请未显示在其他设备中

nix - 何时以及如何使用default.nix、shell.nix 和release.nix？
学习如何使用 Nix 包管理器时遇到的第一种 Nix 表达式是 default.nix；在精彩的 NixOS IRC channel 上，我还了解到 shell.nix 和 release.nix 的
nix - nix 可以安装在/nix 以外的其他位置吗？
一段时间后，我的开发机器中的磁盘空间开始用完(只有 128GB)。出于这个原因，我决定将本地缓存存储(.npm、.m2、.ivy2 等)移动到外部驱动器。在经历了众所周知的“ cabal hell
nix - `nix-build hello.nix`时失败
我按照 http://lethalman.blogspot.com/2014/08/nix-pill-8-generic-builders.html 上的步骤操作构建 GNU Hello，这是我用来构
nix - nix 路径类型何时进入 nix 存储，何时不进入？
我过去注意到在 nix , 一个 ./myfile.txt路径类型似乎有时评估为 /home/myuser/mydir/myfile.txt , 和有时到 /nix/store/55j24v9qw
nix - 关于 Nix 包管理的 Nix 表达式是什么？
即使在阅读了 Nix 手册之后，仍然对 Nix 表达式的真正含义感到困惑。有时它们被称为派生，但存储派生也有其他含义。最佳答案在 Nix 中，Nix 表达式只是您可以用 Nix 语言编写的任何类型
nix - Nix 派生中的隔离临时文件
我没有在 Nix 派生中找到任何关于处理临时文件的信息。我找到了 $TMP 和 $TMPDIR 环境变量，但它们都指向 /tmp，这是系统全局的。 { pkgs ? import {} }:
nix - 如何 nix-env 安装来自 nix 表达式文件的派生？
我有一个 default.nix构建派生的文件(至少我对它的理解)。 { nixpkgs ? import {}, compiler ? "ghc864" } : nixpkgs.pkgs.hask
nix - 如何在 nix 中记录可重现的配置文件(尤其是来自 nix-env)？
所以，终于开始获得一个稳定的 nix 环境，我基本上可以在其中进行所有的开发。万岁! 现在我想让它重现，如 yarn.lock (对于那些熟悉 javascript 领域中的 npm/yarn 的人)
nix - nix 构建守护进程是否保留构建日志？
运行时的某个时候nix-build和 nixos-rebuild我发现了易于修复的问题(例如不推荐使用的警告或多余的导入)，我想“有趣，我可以在空闲时间解决这个问题”。我知道我可以将构建日志重定向到
nix - Nix 中的构建与运行时依赖关系
我刚刚开始了解 Nix，所以如果我错过了文档中问题的答案，我深表歉意。我想使用 Nix 设置一台具有最少库和可执行文件集的安全生产机器。我不希望存在任何编译器或其他构建工具，因为这些可能存在安全风险
nix - 可重现的 nix-env -i 只有 Nix，没有 NixOS
我只使用 Nix作为包管理器而不使用全部NixOS .我想要一个可重现的 nix-env -i可以共享和备份的软件包安装。我知道使用 config.nix为 NixOS但我正在寻找与 Nix 类似的
nix nixlang : undefined variable pkgs in default. nix via nix-build -A hello 但在 nix repl 中工作
我写了一个非常简单的 default.nix 文件，我应该可以用它来构建 gnu hello 包(类似于 nix-pills)。但是现在我遇到了一个错误: [jane@nixos:~/graphvi
nix - 如何从 nix-shell 使用的 nix 表达式中的 nixpkgs 派生中获取名称？
我正在编写一个 .nix 表达式，主要供 nix-shell 使用。 .我不知道该怎么做。请注意，这不在 NixOS 上，但我认为这不是很相关。我正在查看的特定示例是我想获得 this versio
nix - 当函数定义中没有使用问号时，Nix 中的问号是什么意思？
我知道 a similar question , 但它指的是 ? 在 function definitions with a set pattern 中使用(pinned)。我查看了 lib.mak
nix - 如何将我的 nix 环境重置为原始用户配置文件？
我相信我跑了nix-env -if example.nix这改变了我的 nix 环境。如何撤消此操作？我正在尝试运行在我的 nixos 配置( /etc/nixos/* )中指定的应用程序，但它似
nix - 编写本地 nix 包
我想运行一个安装了以下软件包的 nix-shell: aspell aspellDicts.en 你好我不能简单地做:nix-shell -p aspell aspellDicts.en hello
nix - `nix-darwin` 提供什么？
我是 nix 世界的新手，我使用 Mac OS X。我刚刚在我的 MacBook 上安装了 nix，并想使用 nix 来管理一些软件包，例如 Emacs 而不是 Homebrew。我找到了这个仓库:
nix - 从 Nix 表达式语言中的另一个集合继承属性
在 Nix 手册的 Inheriting attributes 中部分，我们有 graphviz = (import ../tools/graphics/graphviz) { inherit f
nix - 在多台机器上挂载相同的/nix 目录
我想在相同架构的多台 openSUSE 机器(不同版本)上使用 nix-package manager 一致地安装软件。我不是任何系统的 root，但想说服我们的系统管理员在所有使用网络挂载的机器上以
nix - 如何再次构建存储路径 `nix-build`？
我创建了自己的存储库来获取一些 git 源。 # packages.nix with (import {}); rec { rustcSource = fetchgit { url =

首页

博学

6Ren·AI

商城

regex - 如何使用正则表达式(在 Perl 或 *nix 终端中)匹配庞大语料库中列表中的单词？