hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库-6ren

hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库

转载作者：行者123 更新时间：2023-12-05 00:54:36

30

4

我们有很多 Json 日志，想要构建我们的 Hive 数据仓库。将 Json 日志导入 spark schemaRDD 很容易，schemaRDD 有一个 saveAsTable 方法，但它只适用于从 HiveContext 创建的 schemaRDD，而不适用于常规 SQLContext。当我尝试使用从 Json 文件创建的 schemaRDD 保存AsTable 时，它会抛出异常。有没有办法强制它与 HiveContext '绑定(bind)'并将其保存到 Hive 中？我看不出有什么明显的理由不能做。我知道有像 saveAsParquetFile 这样的选项用于数据持久性，但我们真的想利用 Hive。

最佳答案

那么，您的数据确实存在于 SchemaRDD 中吗？
您可以使用在 hive 上下文中注册 JSON RDD

hc.registerRDDasTable(rdd,"myjsontable")

“myjsontable”现在只存在于 hive 上下文中，数据仍然没有保存在那里。
然后你可以做类似的事情

hc.sql("创建表 myhivejsontable AS SELECT * FROM myjsontable")

这实际上会在 hive 中创建你的表。
您实际需要以什么格式存储它？我推荐 Parquet，因为列式存储对于查询来说会更有效。
如果你想将它存储为 JSON，你可以使用 Hive SerDe(我在这里写了一个 https://github.com/rcongiu/Hive-JSON-Serde)

我写了一篇关于在 Spark 中创建嵌套数据并将其加载到 Hive 的短文，它是用于 parquet，而不是用于 json，但它可能会有所帮助:http://www.congiu.com/creating-nested-data-parquet-in-spark-sql/

关于hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25841274/

30

4

0

文章推荐： SASS inspect() for array 或其他方法如何输出数组

文章推荐： flutter - 如何忽略 `dart-lang/coverage` 中的一行

文章推荐： r - geom_line 图中的顶点顺序错误

postgresql - 将 PostgreSQL 数据库加载到 SchemaRDD
我在 PostgreSQL 中有一个包含 100 万行和 100 多列的数据源，我想使用 Spark SQL，所以我想转换这个数据源以获得 SchemaRDD . Spark SQL Programm
sql - 如何将 Spark SchemaRDD 转换为我的案例类的 RDD？
在 Spark 文档中，很清楚如何从您自己的案例类的 RDD 创建 Parquet 文件； (来自文档) val people: RDD[Person] = ??? // An RDD of case
python - pyspark : Save schemaRDD as json file
我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。示例:我有以下 JSON 文件“jfile.json”: {
hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库
我们有很多 Json 日志，想要构建我们的 Hive 数据仓库。将 Json 日志导入 spark schemaRDD 很容易，schemaRDD 有一个 saveAsTable 方法，但它只适用于从
apache-spark - 如何将 Avro 结构转换为 SchemaRDD 并返回？
有没有办法转换Avro结构到 SchemaRDD ?我在 https://issues.apache.org/jira/browse/SPARK-2736 中看到了 JavaRDD 的示例，但无法找到
amazon-s3 - 在 S3 上以 Parquet 格式保存 >>25T SchemaRDD
在 S3 上尝试以 Parquet 格式保存非常大的 SchemaRDD 时，我遇到了许多问题。我已经针对这些问题发布了具体问题，但这正是我真正需要做的。代码应该是这样的 import org.apa
sql - 为什么我想要 .union 而不是 .unionAll 在 Spark 中用于 SchemaRDD？
我正试图围绕 Spark SQL documentation 中的这两个函数进行思考。 —— def union(other: RDD[Row]): RDD[Row] 返回此 RDD 和另一个 RDD

首页

博学

6Ren·AI

商城

hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库