gpt4 book ai didi

java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP

转载 作者:行者123 更新时间:2023-12-02 11:53:52 26 4
gpt4 key购买 nike

我想根据连词和逗号分割树。例如,当我有 VP 和 VPNP 和 NPVP, VPNP,NP 时,我想分别提取每个 VP 或 NP。我有以下代码:

 List<Tree> subtrees = constituent.subTreeList();

for (int i = 0; i < subtrees.size(); i++) {
String s = "@VP $+ CC $+ @VP";
TregexPattern p = TregexPattern.compile(s);
TregexMatcher m = p.matcher(subtrees.get(i));
while (m.find()) {
m.getMatch().pennPrint();
Tree foundTree = m.getMatch();
System.out.println(m.getMatch());
}
}

但它不适用于以下文本。我的代码有什么问题吗?

(VP (VP (VB manage) (NP (NP (DT the) (JJ entire) (NN life) (NN cycle)) (PP (IN of) (NP (PRP$ your) (NNS APIs))))) (CC and) (VP (VB expose) (NP (PRP$ your) (NNS APIs)) (PP (TO to) (NP (JJ third-party) (NNS developers)))))

最佳答案

这里的主要问题是链式 Tregex 关系(遵循 tgrep 和 tgrep2 的传统)具有特殊的非关联语义:A r1 B r2 C [r3 D]意味着 A r1 BA r2 CA r3 D 。 (这通常对于 A < B < C 的核心用例有意义,即具有 B 和 C 子节点的 A 节点。要获得另一个分组,您需要使用括号。特别是,您想要的模式是 "@VP $+ (CC $+ @VP)"

这记录在 Tregex Javadoc 中在关系列表下,但我意识到这是一个很容易犯的错误,特别是因为语义相对于典型的数学或编程语言表达式非常不标准。

正如 @dantiston 所指出的,还有一些其他改进需要进行。对于常规正则表达式,您应该只在循环外编译该模式一次。此外,最好让 Tregex 迭代树的节点,而不是构建所有子树的完整列表。这是一些很好的示例代码:

Tree t2 = Tree.valueOf("(VP (VP (VB manage) (NP (NP (DT the) (JJ entire) (NN life) (NN cycle)) (PP (IN of) (NP (PRP$ your) (NNS APIs))))) (CC and) (VP (VB expose) (NP (PRP$ your) (NNS APIs)) (PP (TO to) (NP (JJ third-party) (NNS developers)))))");
List<Tree> trees = Collections.singletonList(t2);

String s = "@VP $+ (@CONJP|CC $+ @VP)";
TregexPattern p = TregexPattern.compile(s);
for (Tree t : trees) {
TregexMatcher m = p.matcher(t);
while (m.findNextMatchingNode()) {
Tree foundTree = m.getMatch();
System.out.println(foundTree);
}
}

关于java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47716808/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com