gpt4 book ai didi

python - 将 PDF 文件拆分为段落

转载 作者:太空宇宙 更新时间:2023-11-04 05:14:38 24 4
gpt4 key购买 nike

我有一个关于拆分 pdf 文件的问题。基本上我有一个 pdf 文件的集合,我想根据 段落 拆分这些文件。所以pdf文件的每一段都是一个独立的文件。如果您能帮助我解决这个问题,我将不胜感激,最好是使用 Python,但如果这不可能,任何语言都可以。

最佳答案

您可以使用 pdftotext 来实现上述内容,将其包装在 python 子进程中。或者,您可以使用其他一些已经隐式执行此操作的库,例如 textract。这是一个简单的示例,注意:我使用 4 个空格作为分隔符将文本转换为段落列表,您可能需要使用不同的技术。

import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)

关于python - 将 PDF 文件拆分为段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42093548/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com