gpt4 book ai didi

python - 提取两个点之间的文本,以数字开头

转载 作者:行者123 更新时间:2023-12-01 00:43:31 26 4
gpt4 key购买 nike

我基本上已经阅读了PDF文件的内容。现在,我正在尝试找出标题。一致性是 - 每个 header 都采用以下模式:“1.我的标题。然后是文本......”

举个例子:

x = '1. Some Header. and some more text 2. Another Header. And that is the end'
import re
re.findall((r'[0-9]\..*\.'),x)

尝试过,但没有成功。

我所希望的是:最好的情况:['1.一些标题', '2.另一个标题']最坏的情况:['某个 header ','另一个 header ']

最佳答案

您可以使用re.findall:

import re
x = '1. Some Header. and some more text 2. Another Header. And that is the end'
result = re.findall('\d+\.\s+[\w\s]+(?=[\.$])', x)

输出:

['1. Some Header', '2. Another Header']

关于python - 提取两个点之间的文本,以数字开头,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57170401/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com