gpt4 book ai didi

python - 有没有一种方法可以处理 Blob 存储中的 PDF 文件,而无需使用 Python 将它们下载到本地?

转载 作者:行者123 更新时间:2023-12-02 07:22:12 26 4
gpt4 key购买 nike

总结问题:

我正在尝试将多个 PDF 处理为用 Python 编写的 OCR 程序。在本地开发期间,PDF 位于可以处理的本地目录中,但我无法在 Blob 存储中找出类似路径的文件系统。从技术上讲,我知道 Blob 中没有这样的文件系统,但我需要在 OCR 程序中传递这样的路径。我们有什么方法可以实现这一目标吗?

我尝试过的:

目前,我有以下代码来连接到 azure.py 中的容器和 blob:

import os
import glob
from azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient, PublicAccess

# list input PDF files
def ls_files(client, path, recursive=False):
if not path == '' and not path.endswith('/'):
path += '/'

blob_list = client.list_blobs(name_starts_with=path)
files = []
for blob in blob_list:
relative_path = os.path.relpath(blob.name, path) # blob.name is the name of blobs in containers
if recursive or not '/' in relative_path:
files.append(relative_path)
files = [f for f in files if f.endswith('.pdf')] # look for PDF files
return files

# connection string to the storage account
connect_str = '<connection string>'
# same container but different folders for inputs and outputs
container_name = 'ocr'

blob_service_client = BlobServiceClient.from_connection_string(connect_str)
client = blob_service_client.get_container_client(container_name)

input_files = ls_files(client, '', recursive=True) # This is the input PDF files

for files in input_files:
############################
# kick off OCR program here#
############################
print('Processing ...', files, '\n')

main.py文件中:

import azure as az 

input_directory = az.input_files # input_directory was like '/Users/xyz/path/to/local/dir'

# do regular OCR processing next

执行脚本后,Python 无法识别 Blob 存储中的文件或路径。有什么方法可以实现我们的目标吗?提前致谢。

编辑1:

我遇到了this sample code但恐怕这是针对旧版本的 Python SDK,而不是针对 V12。也一直在看官方repo但没有效果。

编辑2:

好的。已开票here向 MSFT 团队寻求帮助,一旦我了解更多信息,我将在此处更新。解决方法是 1) 将文件下载为内存流或 2) 在 Python 中创建一个临时文件作为占位符。欢迎任何建议。

最佳答案

除了使用 Azure 存储 BLOB,您还可以使用 Azure 存储文件共享,还可以使用用于 OCR 的 Azure 认知服务计算机视觉 API https://learn.microsoft.com/en-us/azure/cognitive-services/computer-vision/concept-recognizing-text

关于python - 有没有一种方法可以处理 Blob 存储中的 PDF 文件,而无需使用 Python 将它们下载到本地?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63494275/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com