gpt4 book ai didi

python - 在python中读取所有类型的文件

转载 作者:太空宇宙 更新时间:2023-11-04 02:49:56 25 4
gpt4 key购买 nike

我正在尝试从 python(.pdf .doc .docx) 中的不同类型的文件中提取信息并转换为 .txt,但是在处理不同的文件时,我在不需要时获得空格和换行符以及许多其他问题。我已经尝试过 PyPDF2 和 PDF 管理器。请给我一些可以从文件中提取信息的建议。

编辑

目前正在寻找可以帮助我从 .pdf 文件中提取准确文本的东西。我已经尝试过 PyPDF、PDFMiner 和 PDF 管理器,但我在所有这些文件中遇到了一些 pdf 问题。

最佳答案

我个人认为 pdfminer 是从 pdf 中提取信息的最佳 python 模块 Get it here

我想你可以引用this link用于相应的文件格式。

关于python - 在python中读取所有类型的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44179222/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com