gpt4 book ai didi

python - python 中的输出结果不正确 : Text extraction for . pdf、.pptx 和 .docx

转载 作者:行者123 更新时间:2023-12-01 08:00:29 25 4
gpt4 key购买 nike

我创建了一个函数,该函数将打开目录中的每个文件并从每个文件中提取文本并使用 Pandas 将其输出到 Excel 工作表中。每种文件类型的索引似乎工作得很好。但是,当从路径目录中的第一个文件中提取文本时,它似乎正在用第一个文件的提取文本替换从其他文件中提取的其他文本。请帮忙,谢谢!

from pathlib import Path 
import shutil
from datetime import datetime
import time
from configparser import ConfigParser
import glob
import fileinput
import pandas as pd
import os
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import docx2txt
from pptx import Presentation

p = Path('C:/Users/XXXX/Desktop/test_folder')

txt_files = list(p.rglob('*txt'))
PDF_files = list(p.rglob('*pdf'))
csv_files = list(p.rglob('*csv'))
docx_files = list(p.rglob('*docx'))
pptx_files = list(p.rglob('*pptx'))


def loader(path):
with open(str(path.resolve()),"r",encoding = "ISO-8859-1") as f:
docx_out,pptx_out = [],[]
data = []
print(pptx_files)
if path.suffix == ".pdf":
for name1 in PDF_files:
data.append(pdf_to_text(name1))
return data
elif path.suffix == ".docx":
for name2 in docx_files:
docx_out = (docx2txt.process(name2))
return docx_out
elif path.suffix == ".pptx":
for file in pptx_files:
prs = Presentation(file)
for slide in prs.slides:
for shape in slide.shapes:
if not shape.has_text_frame:
continue
for paragraph in shape.text_frame.paragraphs:
for run in paragraph.runs:
pptx_out.append(run.text)
return pptx_out
else:
return f.readlines()

输出示例为:

文本内容文件名这是一个测试first_pdf.pdf

这是一个测试 secondary_pdf.pdf

  • “second_pdf.pdf”不包含“这是一个测试”,但由于某种原因,它接受从第一个 pdf 中提取的任何文本。 (所有文件类型都是如此。

最佳答案

这个区 block

    if path.suffix == ".pdf":
for name1 in PDF_files:
data.append(pdf_to_text(name1))
return data

附加第一个 PDF 文件后从函数返回。它永远不会到达第二个,因为您是从 for 循环内部返回的。这应该可以修复它:

    if path.suffix == ".pdf":
for name1 in PDF_files:
data.append(pdf_to_text(name1))
return data

关于python - python 中的输出结果不正确 : Text extraction for . pdf、.pptx 和 .docx,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55759052/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com