gpt4 book ai didi

apache-spark - 未绑定(bind)方法 createDataFrame()

转载 作者:行者123 更新时间:2023-12-03 07:47:23 24 4
gpt4 key购买 nike

尝试从 RDD 创建 DataFrame 时遇到错误。
我的代码:

from pyspark import SparkConf, SparkContext
from pyspark import sql


conf = SparkConf()
conf.setMaster('local')
conf.setAppName('Test')
sc = SparkContext(conf = conf)
print sc.version

rdd = sc.parallelize([(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)])

df = sql.SQLContext.createDataFrame(rdd, ["id", "score"]).collect()

print df

错误:

df = sql.SQLContext.createDataFrame(rdd, ["id", "score"]).collect()
TypeError: unbound method createDataFrame() must be called with SQLContext
instance as first argument (got RDD instance instead)

我在 Spark shell 中完成了相同的任务,其中直接的最后三行代码将打印值。我主要怀疑 import 语句,因为这是 IDE 和 Shell 之间的区别所在。

最佳答案

您需要使用 SQLContext 的实例。所以你可以尝试如下操作:

sqlContext = sql.SQLContext(sc)
df = sqlContext.createDataFrame(rdd, ["id", "score"]).collect()

更多详细信息请参见pyspark documentation .

关于apache-spark - 未绑定(bind)方法 createDataFrame(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39505943/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com