gpt4 book ai didi

python - 如何在 Django 模型中从 PDF 中提取并保存文件

转载 作者:太空宇宙 更新时间:2023-11-03 21:03:16 25 4
gpt4 key购买 nike

我现在正在开发一个项目,需要提取附加到模型的 PDF。然后将 PDF 与项目相关联,如下 models.py:

class Project(models.Model):
name = models.CharField(max_length=100)
files = models.FileField('PDF Dataset',
help_text='Upload a zip here',
null=True)

class Pdf(models.Model):
name = models.CharField(max_length=100)
file = models.FileField(null=True)
project = models.ForeignKey(Project, on_delete=models.CASCADE)

然后我可以通过 Celery 触发一个任务来提取 PDF 并将每个文件保存为自己的记录。我的示例tasks.py如下:

from django.core.files.base import ContentFile
from celery import shared_task
from zipfile import ZipFile
import re

def extract_pdfs_from_zip(self, project_id: int):
project = Project.objects.get(pk=project_id)
...
# Start unzipping from here.
# NOTE: This script precludes that there's no MACOSX shenanigans in the zip file.
pdf_file_pattern = re.compile(r'.*\.pdf')
pdf_name_pattern = re.compile(r'.*\/(.*\.pdf)')
with ZipFile(project.files) as zipfile:
for name in zipfile.namelist():
# S2: Check if file is .pdf
if pdf_file_pattern.match(name):
pdf_name = pdf_name_pattern.match(name).group(1)
print('Accessing {}...'.format(pdf_name))
# S3: Save file as a new Pdf entry
new_pdf = Pdf.objects.create(name=pdf_name, project=project)
new_pdf.file.save(ContentFile(zipfile.read(name)),
pdf_name, save=True) # Problem here
print('New document saved: {}'.format(new_pdf))
else:
print('Not a PDF: {}'.format(name))
return 'Run complete, all PDFs uploaded.'

由于某种原因,保存文档的部分不再输出 PDF。我知道原始 zip 的内容,所以我确定它们是 PDF。有什么想法如何保存文件同时保留其 PDF 格式吗?

预期结果是 PDF 可读。现在,当我打开文件时,它显示为已损坏。感谢您对此的帮助。

最佳答案

糟糕,看起来我的 zip 文件因删除其中的 _MACOSX 文件而被损坏。我在tasks.py 文件之外进行了删除。请参阅Mac zip compress without __MACOSX folder?了解更多详情。

关于python - 如何在 Django 模型中从 PDF 中提取并保存文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55585794/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com