gpt4 book ai didi

python - 将 RDD 转换为可迭代的 : PySpark?

转载 作者:太空狗 更新时间:2023-10-29 17:30:39 25 4
gpt4 key购买 nike

我有一个 RDD,我通过加载一个文本文件并对其进行预处理来创建它。我不想收集它并将其保存到磁盘或内存(整个数据),而是想将它传递给 python 中的其他函数,这些函数一个接一个地使用可迭代的数据。

这怎么可能?

data =  sc.textFile('file.txt').map(lambda x: some_func(x))

an_iterable = data. ## what should I do here to make it give me one element at a time?
def model1(an_iterable):
for i in an_iterable:
do_that(i)

model(an_iterable)

最佳答案

我相信你想要的是toLocalIterator() :

关于python - 将 RDD 转换为可迭代的 : PySpark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32771737/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com