gpt4 book ai didi

uima - 我应该如何使用 UIMA Ruta 来匹配换行符之间的所有单词?

转载 作者:行者123 更新时间:2023-12-01 11:38:42 25 4
gpt4 key购买 nike

感谢任何有力的双手!

我有一些像下面这样的文字

aaaaa aaaa aaaaa aaaaaa
bbbbb bbbbb bbbb bbbbbb
cccccc ccccc ccccc cccccc

我想使用 Ruta 创建匹配换行符之间所有字符串的注释。我希望我的注释创建以下三个匹配项:

1. aaaaa aaaa aaaaa aaaaaa
2. bbbbb bbbbb bbbb bbbbbb
3. cccccc ccccc ccccc cccccc

我尝试匹配换行符之间的所有内容,如下所示

BREAK #{-> MARK(Stuff)} BREAK;

但运气不好。任何人都可以提出一些建议吗?

非常感谢!

最佳答案

您的规则的问题可能是当前使用的过滤设置。默认情况下,空格、分隔符和标记是不可见的。该规则可能无法找到任何 anchor 来启动匹配过程。您需要使规则的中断可见,例如,使用 RETAINTYPE:

Document{-> RETAINTYPE(BREAK)};
BREAK #{-> MARK(Stuff)} BREAK;
Document{-> RETAINTYPE}; // for restoring the default setting

还有一个能够创建这些注释的分析引擎: PlainTextAnnotator .然而,该分析引擎在行首和行尾也包含空格。这些可以用类似的东西删除:

Document{-> RETAINTYPE(SPACE)};
Line{->TRIM(SPACE)};

在 UIMA Ruta 2.2.1(下一版本)中,您还可以这样写:

Document{-> RETAINTYPE(BREAK)};
(#{-> Stuff} BREAK)+;

(我是 UIMA Ruta 的开发者)

关于uima - 我应该如何使用 UIMA Ruta 来匹配换行符之间的所有单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24322256/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com