gpt4 book ai didi

python - 在 Python Spark 中查看 RDD 内容?

转载 作者:IT老高 更新时间:2023-10-28 21:39:23 27 4
gpt4 key购买 nike

在 pyspark 中运行一个简单的应用程序。

f = sc.textFile("README.md")
wc = f.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)

我想使用 foreach 操作查看 RDD 内容:

wc.foreach(print)

这会引发语法错误:

SyntaxError: invalid syntax

我错过了什么?

最佳答案

此错误是因为 print 不是 Python 2.6 中的函数。

您可以定义执行打印的辅助 UDF,或使用 __future__print 视为函数的库:

>>> from operator import add
>>> f = sc.textFile("README.md")
>>> def g(x):
... print x
...
>>> wc.foreach(g)

>>> from __future__ import print_function
>>> wc.foreach(print)

但是,我认为使用 collect() 将 RDD 内容带回驱动程序会更好,因为 foreach 在工作节点和输出上执行不一定会出现在您的驱动程序/外壳中(它可能会在 local 模式下,但在集群上运行时不会出现)。

>>> for x in wc.collect():
... print x

关于python - 在 Python Spark 中查看 RDD 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25295277/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com