作者热门文章
- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用 spark 来处理数据。但是我不知道如何将新数据保存到Hive
我从 Hive 加载 rdd,然后运行 map 函数来清理数据。
result = myRdd.map(lambda x: cleanup(x))
我想将结果保存到 Hive 中的新表中。所以我用
result.insertInto("newTable", True)
我收到错误:'PipelinedRDD' object has no attribute 'insertInto'
如何将结果转换为 rdd 以使用 insertInto
函数?我也想知道还有其他方法可以完成这项任务吗?
最佳答案
我找到了答案
from pyspark.sql import SQLContext
sqlCtx = SQLContext(sc)
srdd = sqlCtx.inferSchema(result)
现在我可以使用了
srdd.insertInto("newTable", True)
关于hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25177100/
我是一名优秀的程序员,十分优秀!