python - 如何加快从 adl ://with fsspec+adlfs? 读取 CSV/Parquet 文件-6ren

python - 如何加快从 adl ://with fsspec+adlfs? 读取 CSV/Parquet 文件

转载作者：行者123 更新时间：2023-12-05 02:56:14

25

4

我有一个几千兆字节的 CSV 文件驻留在 Azure Data Lake 中。使用 Dask，我可以在一分钟内读取这个文件，如下所示:

>>> import dask.dataframe as dd
>>> adl_path = 'adl://...'
>>> df = dd.read_csv(adl_path, storage_options={...})
>>> len(df.compute())

但是，我不想将其读入 Dask 或 Pandas DataFrame——我想直接访问底层文件。 (目前它是 CSV，但我也希望能够处理 Parquet 文件。)所以我也在尝试使用 adlfs 0.2.0 :

>>> import fsspec
>>> adl = fsspec.filesystem('adl', store_name='...', tenant_id=...)
>>> lines = 0
>>> with adl.open(adl_path) as fh:
>>>    for line in fh:
>>>        lines += 1

在与 Dask 进程相同的时间内，此方法仅读取了 0.1% 的输入。

我试过使用fsspec的缓存，认为这会在the initial caching完成后加速访问:

>>> fs = fsspec.filesystem("filecache", target_protocol='adl', target_options={...}, cache_storage='/tmp/files/')
>>> fs.exists(adl_path) # False
>>> fs.size(adl_path) # FileNotFoundError

>>> # Using a relative path instead of fully-qualified (FQ) path:
>>> abs_adl_path = 'absolute/path/to/my/file.csv'
>>> fs.exists(abs_adl_path) # True
>>> fs.size(abs_adl_path) # 1234567890 -- correct size in bytes
>>> fs.get(abs_adl_path, local_path) # FileNotFoundError
>>> handle = fs.open(abs_adl_path) # FileNotFoundError

有没有一种高效的方法可以将 CSV(以及 Parquet)作为普通的 Python 文件句柄远程读取，而无需首先将其作为 Dask DataFrame 加载？

最佳答案

我不知道为什么 fs.get 不起作用，但请在最后一行试试这个:

handle = fs.open(adl_path)

即，您打开原始路径，但您在“/tmp/files/”某处获得本地文件的文件句柄(一旦复制完成)。

关于python - 如何加快从 adl ://with fsspec+adlfs? 读取 CSV/Parquet 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60646151/

25

4

0

文章推荐： mapbox-gl-js - 如何检查 Mapbox GL JS 绘制状态

文章推荐： powerbi - DAX - 公式引用自身

文章推荐： python - 如何用另一列中的每个值减去一个列值( Pandas )

文章推荐： regex - 规则参数的模式匹配 Gitlab CI

python - 如何在 Pandas 中更新 fsspec
我正在尝试使用 Pandas read_csv方法。一切正常。我保存了所有内容并在第二天开始处理它，但随后我不断收到此错误: ImportError: Pandas requires version
cocoa - 如何从 FSSpec 获取 NSString(Unix 风格路径)
如何从 FSSpec 获取 NSString(Unix 样式路径) 问候，达纳。最佳答案为 FSSpec 创建 FSRef。 Create a CFURL for the FSRef . 使用 t
django - 如何对 Azure Blob 存储的 fsspec 进行身份验证
从 django REST API View 中，我尝试访问存储在 azure 存储 blob 中的文件。我想打开它而不将其下载到文件中，如图here 。读取权限就足够了。为此，我这样勾勒出我的观点
django - 如何对 Azure Blob 存储的 fsspec 进行身份验证
从 django REST API View 中，我尝试访问存储在 azure 存储 blob 中的文件。我想打开它而不将其下载到文件中，如图here 。读取权限就足够了。为此，我这样勾勒出我的观点
python - 如何加快从 adl ://with fsspec+adlfs? 读取 CSV/Parquet 文件
我有一个几千兆字节的 CSV 文件驻留在 Azure Data Lake 中。使用 Dask，我可以在一分钟内读取这个文件，如下所示: >>> import dask.dataframe as dd
azure - 如何将数据存储 URI 传递给 azureml.fsspec.AzureMachineLearningFileSystem Python SDK？
我已经注册了一个 ADLS 数据存储。 datastore = mlclient.datastores.get(ds_name) from azureml.fsspec import AzureMac
dvc(数据版本控制)错误 - ImportError : cannot import name 'fsspec_loop' from 'fsspec.asyn'
我使用 Python 3.7.13 版并为 MLOps 项目创建虚拟环境 (venv)。这个venv中安装了兼容Python== 3.7.13的dvc包(=2.10.2)。 (venv) (base
azure - 如何将数据存储 URI 传递给 azureml.fsspec.AzureMachineLearningFileSystem Python SDK？
我已经注册了一个 ADLS 数据存储。 datastore = mlclient.datastores.get(ds_name) from azureml.fsspec import AzureMac
dvc(数据版本控制)错误 - ImportError : cannot import name 'fsspec_loop' from 'fsspec.asyn'
我使用 Python 3.7.13 版并为 MLOps 项目创建虚拟环境 (venv)。这个venv中安装了兼容Python== 3.7.13的dvc包(=2.10.2)。 (venv) (base
macos - 将 vRef 和 dirID(从 FSSpec)转换为 CFURL/NSURL
我正在将公司的一款应用程序迁移到 64 位环境，因此无法再访问 FSSpec 函数。我们的文件格式中有一些数据结构，它们将旧 FSSpec 格式中的 vRefNum 和 dirID 保存到文件中..

首页

博学

6Ren·AI

商城

python - 如何加快从 adl ://with fsspec+adlfs? 读取 CSV/Parquet 文件