- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我遇到过这样的情况:blob 存储中有一个相当大的 SAS 文件 (300GB),需要在 Azure ML 服务工作区中进行处理。他们的主要任务是将其转换为一堆 parquet 文件。
当然,我可以将文件下载到 Azure ML 工作区的 FileShare 容器,然后使用 pandas read_sas() 定义适当的 block 大小来处理该文件:
local_file_path = "./dld/mysas.sas7bat"
with open(local_file_path,"wb") as local_file:
downloader = blobclient.download_blob()
downloader.readinto(local_file)
reader = pd.read_sas(local_file_path, format='sas7bdat', chunksize=1000000)
count = 0
prefix="chunks/testchunk"
chunk: pd.DataFrame
for chunk in reader:
count += 1
name = prefix + str(count) + ".parquet"
chunk.to_parquet(name, engine = "pyarrow")
这当然有效。但是,我希望有一种更有效的方法。就像能够直接从 blob 存储创建“文件流”一样。无需先将其下载到已安装的 Azure 文件共享中。但我还没有发现任何东西。所以我为 blob 存储编写了自己的“流包装器”:
class BlobStorageFileHandler(RawIOBase):
def __init__(self, storageDownloader: StorageStreamDownloader):
self.downloader = storageDownloader
self.chunks = self.downloader.chunks()
self.current_pos = 0
self.current_chunk_len = 0
self.current_chunk = None
self._read_next_chunk()
def _read_next_chunk(self):
self.current_chunk: bytes = next(self.chunks, None)
if self.current_chunk is None:
self.current_chunk_len = 0
else:
self.current_chunk_len = len(self.current_chunk)
def seekable(self) -> bool:
return True
def seek(self, offset, whence=SEEK_SET):
print("seek: ", offset)
def readable(self) -> bool:
return True
def read(self, size=-1):
end_pos = self.current_pos + size
# if more bytes are requested that are left in the current read bytes-chunk
if end_pos > self.current_chunk_len:
# number of bytes that have to be read from the old chunk
rest_part = self.current_chunk_len - self.current_pos
# number of bytes that have to be read from the next chunk
new_part = end_pos - self.current_chunk_len
old_chunk_end: bytes = b''
if rest_part > 0:
old_chunk_end = self.current_chunk[self.current_pos: self.current_pos + rest_part]
self._read_next_chunk()
new_chunk_part: bytes
# if there was no further chunk left to be read
if self.current_chunk is None:
if rest_part > 0:
return old_chunk_end
return b''
if self.current_chunk_len > new_part:
new_chunk_part = self.current_chunk[0: new_part]
else:
new_chunk_part = self.current_chunk
self.current_pos = new_part
return old_chunk_end + new_chunk_part
else:
result = self.current_chunk[self.current_pos:self.current_pos + size]
self.current_pos += size
return result
使用此类,无需首先将数据下载到已安装的 FileShare(或任何本地目录,如果在本地使用):
sas_file = BlobStorageFileHandler(blobclient.download_blob())
reader = pd.read_sas(sas_file, format='sas7bdat', chunksize=1000000)
这只是第一个解决方案,不是很复杂,但它按预期工作。
但是,我无法想象我是唯一有这种需求的人,因此,我想知道是否还有其他解决方案或现有的包装类,就像我上面展示的那样。
欢迎任何意见。
谢谢汉斯约格
最佳答案
您可以使用 download_blob
分块下载 blob方法也是如此。基本上,您需要指定 offset
(起始位置)和 length
(要读取的字节数)参数,该方法只会将这些字节返回给您。
在您当前的实现中,由于您没有指定这些参数,因此 SDK 将下载整个 blob。
关于Python "FileHandler"到 Azure Blob 存储 - 没有这样的事情吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68219950/
我正在尝试从 Azure 容器中删除 blob。我能够连接到它并列出此问题中代码后面的所有 blob:Upload and Delete Azure Storage Blob using azure-
我正在尝试从 Azure 容器中删除 blob。我能够连接到它并列出此问题中代码后面的所有 blob:Upload and Delete Azure Storage Blob using azure-
运行我的 azure 函数(用于读取 azure blob 存储)后出现错误。 错误是 ID 0dad768d-36d4-4c1a-85ae-2a5122533b3c fail: Func
运行我的 azure 函数(用于读取 azure blob 存储)后出现错误。 错误是 ID 0dad768d-36d4-4c1a-85ae-2a5122533b3c fail: Func
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure,并将 Blob ID 存储在我们的数
我没有在网上看到任何有关如何获取位于 BlobContainerClient 内特定目录内的所有 blob 的示例。 以前,我使用的是 Microsoft.Azure.Storage 软件包,但这些软
我正在使用 C# 控制台应用程序 (.NET Core 3.1) 从 Azure Blob 存储读取大量图像文件并生成这些图像的缩略图。新图像将保存回 Azure,并将 Blob ID 存储在我们的数
我没有在网上看到任何有关如何获取位于 BlobContainerClient 内特定目录内的所有 blob 的示例。 以前,我使用的是 Microsoft.Azure.Storage 软件包,但这些软
我正在编写一些代码,允许用户使用麦克风录制自己的声音,然后将录音上传到 Azure Blob 存储。 为了录制音频,我使用类似于下面的代码 let recordedBlobs = []; this.m
当前使用:https://github.com/Azure/azure-sdk-for-go 概述:我当前正在从 azure blob 存储中下载一个 blob,解析该 blob,然后将转录的 blo
正在观看 this video about how to design Tinder ,在 06:50 提出了关于文件与 BLOBS 的观点。 我想知道大二进制文件和 BLOB(二进制大对象)之间有什
目前我有 hibernate JPA HSQLDB 来自动创建我的数据库表。 如何告诉 JPA 或 Hibernate 将字符串保存为 clob/blob 字段?即一个很长的字符串。到目前为止我找不
我有一个一维 NumPy 数组,其中包含一些“坏”值。我想剔除它们。 每个坏值的邻居只是“顽皮”,但我也想剔除它们。 对不良值的可靠测试是询问: arr<0.1 但是,(我能想到的)对于顽皮值的唯一可
查看有关获取 Blob 和获取 Blob 属性的 MSDN 文档。两个请求看起来相同 "https://myaccount.blob.core.windows.net/mycontainer/mybl
我有 2 个 Blob 存储,一个在 eastus,一个在 canadaeast,我想将一个 .vhd 从 eastus 复制到 canadaeast。我去了 eastus,在我想要复制的 blob
所以场景如下: 我有多个 Web 服务实例,用于将 blob 数据写入 Azure 存储。我需要能够根据收到的时间将 blob 分组到容器(或虚拟目录)中。偶尔(最坏的情况是每天)旧的 blob 会被
在 Azure Blobstorage 中,我有 100 个 Blob,但我只想列出前 10 个 Blob。我该怎么做? 我写的{maxResults:1}没有任何效果,它仍然列出了我所有的 Blob
我们当前的代码使用 Azure SDK 1.8,为了生成共享访问签名,它将首先调用 CloudBlobContainer.GetBlobReference(),然后调用 CloudBlob.GetSh
我有大量文件存储在公共(public) Azure blob 容器中,所有这些文件都通过我的 ASP.NET MVC Web 应用程序中的 HTML 直接引用。例如,blob 存储中一个图像的路径如下
我有一个 NodeJS 后端,它使用 Microsoft 的官方 Blob 存储库 (@azure/storage-blob) 来管理我的 Blob 存储: https://www.npmjs.com
我是一名优秀的程序员,十分优秀!