gpt4 book ai didi

python - pickle Spark RDD 并将其读入 Python

转载 作者:太空狗 更新时间:2023-10-30 02:58:29 25 4
gpt4 key购买 nike

我正在尝试通过 pickle 来序列化 Spark RDD,然后将 pickle 文件直接读入 Python。

a = sc.parallelize(['1','2','3','4','5'])
a.saveAsPickleFile('test_pkl')

然后我将 test_pkl 文件复制到本地。如何将它们直接读入 Python?当我尝试普通的 pickle 包时,当我尝试读取“test_pkl”的第一个 pickle 部分时它失败了:

pickle.load(open('part-00000','rb'))

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib64/python2.6/pickle.py", line 1370, in load
return Unpickler(file).load()
File "/usr/lib64/python2.6/pickle.py", line 858, in load
dispatch[key](self)
File "/usr/lib64/python2.6/pickle.py", line 970, in load_string
raise ValueError, "insecure string pickle"
ValueError: insecure string pickle

我假设 spark 使用的 pickle 方法与 python pickle 方法不同(如果我错了请纠正我)。有什么方法可以让我从 Spark 中提取数据并将这个提取的对象直接从文件中读取到 python 中吗?

最佳答案

可以使用 sparkpickle项目。就这么简单

with open("/path/to/file", "rb") as f:
print(sparkpickle.load(f))

关于python - pickle Spark RDD 并将其读入 Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33808481/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com