gpt4 book ai didi

python - 为什么这个正则表达式不解析整个字符串?

转载 作者:行者123 更新时间:2023-11-28 22:41:05 25 4
gpt4 key购买 nike

编写一个简单的脚本来将大型文本文件解析为单词、它们的父句子和一些元数据(它们是否在引号内等)。试图让正则表达式正常运行并遇到一个奇怪的问题。这是一小段测试代码,显示了我的解析过程。空格是故意的,但我不明白为什么最后一个“单词”没有被解析。它前面没有任何有问题的字符(至少据我所知,使用 repr),当我只对问题“单词”运行 parse() 时,它返回预期的单个单词和空格数组。

代码:

def parse(new_line):
new_line = new_line.rstrip()
word_array = re.split('([\.\?\!\ ])',new_line,re.M)
print(word_array)

x = full_text.readline()
print(repr(x))
parse(x)

输出:

'Far out in the uncharted backwaters of the unfashionable end of the western spiral arm of the Galaxy\n'

['Far', ' ', 'out', ' ', 'in', ' ', 'the', ' ', 'uncharted', ' ', 'backwaters', ' ', 'of', ' ', 'the', ' ', 'unfashionable end of the western spiral arm of the Galaxy']

最佳答案

re.M 是 8,您将其作为 maxsplit 位置参数传递。你需要 flags=re.M 来代替。

关于python - 为什么这个正则表达式不解析整个字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32979679/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com