gpt4 book ai didi

python - 如何从文本中获取前 N 个句子?

转载 作者:太空宇宙 更新时间:2023-11-03 13:02:01 24 4
gpt4 key购买 nike

我需要从文本中获取前 N 个句子,其中句子的最后一个字符可以是句号、冒号或分号。例如,给定此文本:

Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor.
incididunt ut labore: et dolore magna aliqua. Ut enim ad. minim veniam.

前 4 个句子是,

Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor.
incididunt ut labore:

目前,我的代码使用 .:; 作为分隔符拆分字符串,然后加入结果。

import re
sentences = re.split('\. |: |;', text)
summary = ' '.join(sentences[:4])

但它会从结果中删除定界符。我愿意接受正则表达式或基本的字符串操作。

最佳答案

>>> import re
>>> text = "Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor. incididunt ut labore: et dolore magna aliqua. Ut enim ad. minim veniam."
>>> ' '.join(re.split(r'(?<=[.:;])\s', text)[:4])
'Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor. incididunt ut labore:'

关于python - 如何从文本中获取前 N 个句子?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17124403/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com