gpt4 book ai didi

hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto)

转载 作者:可可西里 更新时间:2023-11-01 16:14:18 28 4
gpt4 key购买 nike

我正在使用 spark 来处理数据。但是我不知道如何将新数据保存到Hive

我从 Hive 加载 rdd,然后运行 ​​map 函数来清理数据。

result = myRdd.map(lambda x: cleanup(x))

我想将结果保存到 Hive 中的新表中。所以我用

result.insertInto("newTable", True)

我收到错误:'PipelinedRDD' object has no attribute 'insertInto'

如何将结果转换为 rdd 以使用 insertInto 函数?我也想知道还有其他方法可以完成这项任务吗?

最佳答案

我找到了答案

from pyspark.sql import SQLContext
sqlCtx = SQLContext(sc)
srdd = sqlCtx.inferSchema(result)

现在我可以使用了

srdd.insertInto("newTable", True)

关于hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25177100/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com