java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP-6ren

java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP

转载作者：行者123 更新时间：2023-12-02 11:53:52

26

4

我想根据连词和逗号分割树。例如，当我有 VP 和 VP 或 NP 和 NP 或 VP, VP 或 NP,NP 时，我想分别提取每个 VP 或 NP。我有以下代码:

 List<Tree> subtrees = constituent.subTreeList();

                for (int i = 0; i < subtrees.size(); i++) {
                    String s = "@VP $+ CC $+ @VP";
                    TregexPattern p = TregexPattern.compile(s);
                    TregexMatcher m = p.matcher(subtrees.get(i));
                    while (m.find()) {
                        m.getMatch().pennPrint();
                        Tree foundTree = m.getMatch();
                        System.out.println(m.getMatch());
                    }
                }

但它不适用于以下文本。我的代码有什么问题吗？

(VP (VP (VB manage) (NP (NP (DT the) (JJ entire) (NN life) (NN cycle)) (PP (IN of) (NP (PRP$ your) (NNS APIs))))) (CC and) (VP (VB expose) (NP (PRP$ your) (NNS APIs)) (PP (TO to) (NP (JJ third-party) (NNS developers)))))

最佳答案

这里的主要问题是链式 Tregex 关系(遵循 tgrep 和 tgrep2 的传统)具有特殊的非关联语义:A r1 B r2 C [r3 D]意味着 A r1 B和A r2 C和A r3 D 。 (这通常对于 A < B < C 的核心用例有意义，即具有 B 和 C 子节点的 A 节点。要获得另一个分组，您需要使用括号。特别是，您想要的模式是 "@VP $+ (CC $+ @VP)" 。

这记录在 Tregex Javadoc 中在关系列表下，但我意识到这是一个很容易犯的错误，特别是因为语义相对于典型的数学或编程语言表达式非常不标准。

正如 @dantiston 所指出的，还有一些其他改进需要进行。对于常规正则表达式，您应该只在循环外编译该模式一次。此外，最好让 Tregex 迭代树的节点，而不是构建所有子树的完整列表。这是一些很好的示例代码:

Tree t2 = Tree.valueOf("(VP (VP (VB manage) (NP (NP (DT the) (JJ entire) (NN life) (NN cycle)) (PP (IN of) (NP (PRP$ your) (NNS APIs))))) (CC and) (VP (VB expose) (NP (PRP$ your) (NNS APIs)) (PP (TO to) (NP (JJ third-party) (NNS developers)))))");
List<Tree> trees = Collections.singletonList(t2);

String s = "@VP $+ (@CONJP|CC $+ @VP)";
TregexPattern p = TregexPattern.compile(s);
for (Tree t : trees) {
  TregexMatcher m = p.matcher(t);
  while (m.findNextMatchingNode()) {
    Tree foundTree = m.getMatch();
    System.out.println(foundTree);
  }
}

关于java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47716808/

26

4

0

文章推荐： java - 为什么我只能输入 "1,5"而不能输入 "1.5"

文章推荐： arrays - 在 Haskell 中创建数组

文章推荐： VB.NET MsgBox 是的只能第二次工作吗？

regex - TRegEx.Create 之后必须释放 TRegEx 对象吗？
我见过几个 TRegEx 使用的 Delphi 示例，例如 Delphi 10.1.2 中的以下示例: try RegexObj := TRegEx.Create(REGEX_EXTRACTEMA
regex - TRegex.Match 从不匹配空字符串
我正在处理 TStringList 中的多个字符串，并且想要跳过一些与特定正则表达式模式不匹配的行。因此我创建了一个 ^(?!\t\w+\t\w+) 的模式并尝试过 program P; uses
regex - Delphi TRegEx 替换
如果它们与模式匹配，我想将大字符串中的所有字符@替换为#13#10。但是如何获取我的“[0-9][0-9][0-9][0-9][0-9][0-9][0-9]”的值要放入我的替换字段的模式？ patt
regex - Delphi TRegEx 反向引用损坏？
我在使用 TRegEx.replace 时遇到问题: var Value, Pattern, Replace: string; begin Value := 'my_replace_str
java - 使用斯坦福 Tregex 提取子树
我创建了一个使用 Tregex 提取子树的类。我使用了“TregexPattern.java”中的一些代码片段，因为我不想让程序使用控制台命令。一般来说，有一个句子的树，我想提取某些子树(没有用户交
c++ - TRegEx::IsMatch 始终为假
我有一个小函数，用于在用户取消编辑后验证 StringGrid 中的列。 void validateColumn(int column, const UnicodeString regexp, TSt
regex - System.RegularExpressions.TRegEx 是线程安全的吗？
背景:我遇到的一个应用程序使用 TRegEx来自多个线程的单例。单例初始化为 TRegEx.Create(Pattern, [roCompiled])在类构造函数中，线程使用它以 RegEx.Matc
java - 如何使用斯坦福 NLP Tregex 获取包含多个单词的名词短语？
我试图弄清楚是否可以使用多个单词的条件有效地提取 NP。这是我当前的代码: public static List getNounPhrasesWithMultipleKeywords(Annotati
regex - 使用 TRegEx 在 Delphi 中创建正则表达式
我希望在 Delphi XE 中创建一个正则表达式，它将匹配一个数字，后跟一个小数点，后跟(本质上)无限数量的数字。有效示例: 2.334 150.2 0.23 3 无效示例: 3..42 4-2.
regex - 使用 Delphi 的 TRegex 获取与结果匹配的捕获组
我编写了一个正则表达式，其作用是将所有匹配项返回到其三个备用捕获组。我的目标是了解每场比赛是哪个捕获组产生的。 PCRE 似乎能够产生该信息。但我还无法强制 Delphi XE8 中的 TRegEx
java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP
我想根据连词和逗号分割树。例如，当我有 VP 和 VP 或 NP 和 NP 或 VP, VP 或 NP,NP 时，我想分别提取每个 VP 或 NP。我有以下代码: List subtrees = c
python - 在 Python 中使用 Stanford Tregex
我是 NLP 和 Python 的新手。我正在尝试使用 Tregex 工具和 Python 子进程库从 StanfordCoreNLP 的解析树中提取名词短语的子集。特别是，我正在尝试查找并提取与以下

首页

博学

6Ren·AI

商城

java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP