gpt4 book ai didi

python - Spark 读取 python3 pickle 作为输入

转载 作者:太空狗 更新时间:2023-10-29 20:58:14 26 4
gpt4 key购买 nike

我的数据以 Python 3 腌制文件集的形式提供。其中大部分是 Pandas DataFrames 的序列化。

我想开始使用 Spark,因为我需要一台计算机可以拥有的更多内存和 CPU。此外,我将使用 HDFS 进行分布式存储。

作为初学者,我没有找到解释如何使用pickle文件作为输入文件的相关资料。

它存在吗?如果没有,是否有任何解决方法?

非常感谢

最佳答案

很大程度上取决于数据本身。一般来说,当 Spark 必须读取大的、不可拆分的文件时,它的性能并不是特别好。不过,您可以尝试使用 binaryFiles 方法并将其与标准 Python 工具结合使用。让我们从一个虚拟数据开始:

import tempfile
import pandas as pd
import numpy as np

outdir = tempfile.mkdtemp()

for i in range(5):
pd.DataFrame(
np.random.randn(10, 2), columns=['foo', 'bar']
).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来我们可以使用bianryFiles 方法读取它:

rdd = sc.binaryFiles(outdir)

并反序列化单个对象:

import pickle
from io import BytesIO

dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]

## foo bar
## 0 -0.162584 -2.179106
## 1 0.269399 -0.433037
## 2 -0.295244 0.119195

一个重要的注意事项是,它通常需要比 textFile 这样的简单方法多得多的内存。

另一种方法是仅并行化路径并使用可以直接从分布式文件系统读取的库,如 hdfs3 .这通常意味着以更差的数据局部性为代价降低内存需求。

考虑到这两个事实,通常最好以一种可以以更高粒度加载的格式序列化您的数据。

注意:

SparkContext 提供了 pickleFile 方法,但名称可能会产生误导。它可以用来读取 SequenceFiles包含泡菜对象而不是普通的 Python 泡菜。

关于python - Spark 读取 python3 pickle 作为输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36233423/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com