gpt4 book ai didi

python - 如何从 nltk.trees 中识别和删除跟踪树?

转载 作者:太空宇宙 更新时间:2023-11-03 17:12:40 25 4
gpt4 key购买 nike

例如,我得到了这棵小树(显然只是一个子树):

(VP (VBZ says) (SBAR (-NONE- *0*) (S-3 (-NONE- *T*))))

踪迹树是那些通向形状为*.*的叶子的树。我现在想删除所有作为跟踪树的子树。因此,对于此示例,结果应如下所示:

(VP (VBZ says))

到目前为止,我提取了所有这些叶子:

from nltk.tree import ParentedTree
import re

traceLeaves = []

line = "( (VP (VBZ says) (SBAR (-NONE- *0*) (S-3 (-NONE- *T*)))))"
currTree = ParentedTree.fromstring(line, remove_empty_top_bracketing = True)
for leaf in currTree.leaves():
if re.search('\*', leaf):
traceLeaves.append(leaf)

但我不知道如何向上导航树,直到存在一个不是跟踪树的同级树,并从原始树中删除跟踪树。我完全被困在这里,因为我才开始使用 nltk...

编辑:

这是我希望能够处理的一个完整句子:

( (SINV (S-3 (S (NP-SBJ-1 (-NONE- *PRO*))) (VP (VBG 假设) (NP (DT that) (NN 后)) (PP-TMP (IN at) (NP (NP (DT the) (NN 年龄)) (PP (IN of) (NP (CD 35))))))) (, ,) (NP-SBJ-1 (PRP he)) (VP (VBD 管理) (PP-MNR (IN by) (NP (NN 共识))) (, ,) (SBAR-ADV (IN as) (S (NP-SBJ (-NONE- *PRO*)) (VP ( VBZ是)(NP-PRD(DT中)(NN规则))(PP-LOC(IN中)(NP(NNS大学))))))))(,,)(VP(VBZ说)(SBAR( -NONE- *0*) (S-3 (-NONE- *T*)))) (NP-SBJ (NP (NNP Warren) (NNP H.) (NNP Strother)) (, ,) (NP (NP (DT a) (NN 大学) (NN 官方)) (SBAR (WHNP-2 (WP 者)) (S (NP-SBJ-2 (-NONE- *T*)) (VP (VBZ 是) (VP ( VBG 研究)(NP(NP(DT a)(NN 书))(PP(IN 上)(NP(NNP 先生)(NNP 哈恩))))))))(. .)) )

最佳答案

叶子是常规字符串,因此它们对于导航树没有帮助。扫描树并寻找高度为 2 的子树。

要识别应删除的内容,请注意 nltk 树是一种列表;因此,要查看一个节点有多少个子节点,只需获取其 len() 即可。当你找到踪迹叶子时,只要父节点只有一个子节点,就向上移动树;然后删除子树。这应该涵盖所有内容,因为如果一个节点支配两个跟踪树而没有其他任何东西,那么在删除第一个后它将只包含一个:-)

下面还有一个技巧:删除节点会混淆 for 循环,因为分支列表会变短。为了防止在删除之前移动它们,我们向后扫描树。

for sub in reversed(list(t.subtrees())):
if sub.height() == 2 and sub[0].startswith("*"): # abbreviated test
parent = sub.parent()
while parent and len(parent) == 1:
sub = parent
parent = sub.parent()
print(sub, "will be deleted")
del t[sub.treeposition()]

关于python - 如何从 nltk.trees 中识别和删除跟踪树?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33939486/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com