gpt4 book ai didi

python - 创建正则表达式以查找标记文本中重复标记的序列

转载 作者:太空宇宙 更新时间:2023-11-03 18:24:24 26 4
gpt4 key购买 nike

我正在尝试编写一个正则表达式,该表达式将在带有词性标记器的文本中查找复合名词短语,例如“武器生产设施”或“EPA 空气质量监管公告”。我只想查找长度为 3 个或更多单词的复合名词短语。因此,我从标记文本中刮掉标签,然后连续查找三个或更多名词标签。这是我所拥有的:

stringOfTags = 'DET NN NN NNS IN DET NN NN VBD JJ NNP NN NN NNS '

pattern = re.compile(r"(NN[SP]? ){3,}")
match = pattern.findall(stringOfTags)
for item in match:
print item

这是输出,这根本不是我想要的:

NNS
NN

相反,我希望它从 stringOfTags 中找到“NN NN NNS”和“NNP NN NN NNS”。谁能帮助我创建一个正则表达式来查找连续 3 个或更多名词标签的字符串?

最佳答案

您可以将捕获组 ( ) 替换为非捕获组 (?:

pattern = re.compile(r"(?:NN[SP]? ){3,}")

或者使用非捕获组,用捕获组将其括起来。

pattern = re.compile(r"((?:NN[SP]? ){3,})")

最终解决方案:

import re

stringOfTags = 'DET NN NN NNS IN DET NN NN VBD JJ NNP NN NN NNS '

pattern = re.compile(r"(?:NN[SP]? ){3,}")
match = pattern.findall(stringOfTags)

for item in match:
print item

输出

NN NN NNS 
NNP NN NN NNS

关于python - 创建正则表达式以查找标记文本中重复标记的序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23506667/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com