- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想根据连词和逗号分割树。例如,当我有 VP 和 VP
或 NP 和 NP
或 VP, VP
或 NP,NP
时,我想分别提取每个 VP 或 NP。我有以下代码:
List<Tree> subtrees = constituent.subTreeList();
for (int i = 0; i < subtrees.size(); i++) {
String s = "@VP $+ CC $+ @VP";
TregexPattern p = TregexPattern.compile(s);
TregexMatcher m = p.matcher(subtrees.get(i));
while (m.find()) {
m.getMatch().pennPrint();
Tree foundTree = m.getMatch();
System.out.println(m.getMatch());
}
}
但它不适用于以下文本。我的代码有什么问题吗?
(VP (VP (VB manage) (NP (NP (DT the) (JJ entire) (NN life) (NN cycle)) (PP (IN of) (NP (PRP$ your) (NNS APIs))))) (CC and) (VP (VB expose) (NP (PRP$ your) (NNS APIs)) (PP (TO to) (NP (JJ third-party) (NNS developers)))))
最佳答案
这里的主要问题是链式 Tregex 关系(遵循 tgrep 和 tgrep2 的传统)具有特殊的非关联语义:A r1 B r2 C [r3 D]
意味着 A r1 B
和A r2 C
和A r3 D
。 (这通常对于 A < B < C
的核心用例有意义,即具有 B 和 C 子节点的 A 节点。要获得另一个分组,您需要使用括号。特别是,您想要的模式是 "@VP $+ (CC $+ @VP)"
。
这记录在 Tregex Javadoc 中在关系列表下,但我意识到这是一个很容易犯的错误,特别是因为语义相对于典型的数学或编程语言表达式非常不标准。
正如 @dantiston 所指出的,还有一些其他改进需要进行。对于常规正则表达式,您应该只在循环外编译该模式一次。此外,最好让 Tregex 迭代树的节点,而不是构建所有子树的完整列表。这是一些很好的示例代码:
Tree t2 = Tree.valueOf("(VP (VP (VB manage) (NP (NP (DT the) (JJ entire) (NN life) (NN cycle)) (PP (IN of) (NP (PRP$ your) (NNS APIs))))) (CC and) (VP (VB expose) (NP (PRP$ your) (NNS APIs)) (PP (TO to) (NP (JJ third-party) (NNS developers)))))");
List<Tree> trees = Collections.singletonList(t2);
String s = "@VP $+ (@CONJP|CC $+ @VP)";
TregexPattern p = TregexPattern.compile(s);
for (Tree t : trees) {
TregexMatcher m = p.matcher(t);
while (m.findNextMatchingNode()) {
Tree foundTree = m.getMatch();
System.out.println(foundTree);
}
}
关于java - 使用斯坦福解析器的 Tregex 提取与连词连接的 VP/NP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47716808/
我见过几个 TRegEx 使用的 Delphi 示例,例如 Delphi 10.1.2 中的以下示例: try RegexObj := TRegEx.Create(REGEX_EXTRACTEMA
我正在处理 TStringList 中的多个字符串,并且想要跳过一些与特定正则表达式模式不匹配的行。因此我创建了一个 ^(?!\t\w+\t\w+) 的模式并尝试过 program P; uses
如果它们与模式匹配,我想将大字符串中的所有字符@替换为#13#10。 但是如何获取我的“[0-9][0-9][0-9][0-9][0-9][0-9][0-9]”的值要放入我的替换字段的模式? patt
我在使用 TRegEx.replace 时遇到问题: var Value, Pattern, Replace: string; begin Value := 'my_replace_str
我创建了一个使用 Tregex 提取子树的类。我使用了“TregexPattern.java”中的一些代码片段,因为我不想让程序使用控制台命令。 一般来说,有一个句子的树,我想提取某些子树(没有用户交
我有一个小函数,用于在用户取消编辑后验证 StringGrid 中的列。 void validateColumn(int column, const UnicodeString regexp, TSt
背景:我遇到的一个应用程序使用 TRegEx来自多个线程的单例。单例初始化为 TRegEx.Create(Pattern, [roCompiled])在类构造函数中,线程使用它以 RegEx.Matc
我试图弄清楚是否可以使用多个单词的条件有效地提取 NP。这是我当前的代码: public static List getNounPhrasesWithMultipleKeywords(Annotati
我希望在 Delphi XE 中创建一个正则表达式,它将匹配一个数字,后跟一个小数点,后跟(本质上)无限数量的数字。 有效示例: 2.334 150.2 0.23 3 无效示例: 3..42 4-2.
我编写了一个正则表达式,其作用是将所有匹配项返回到其三个备用捕获组。我的目标是了解每场比赛是哪个捕获组产生的。 PCRE 似乎能够产生该信息。但我还无法强制 Delphi XE8 中的 TRegEx
我想根据连词和逗号分割树。例如,当我有 VP 和 VP 或 NP 和 NP 或 VP, VP 或 NP,NP 时,我想分别提取每个 VP 或 NP。我有以下代码: List subtrees = c
我是 NLP 和 Python 的新手。我正在尝试使用 Tregex 工具和 Python 子进程库从 StanfordCoreNLP 的解析树中提取名词短语的子集。特别是,我正在尝试查找并提取与以下
我是一名优秀的程序员,十分优秀!