- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们有很多 Json 日志,想要构建我们的 Hive 数据仓库。将 Json 日志导入 spark schemaRDD 很容易,schemaRDD 有一个 saveAsTable 方法,但它只适用于从 HiveContext 创建的 schemaRDD,而不适用于常规 SQLContext。当我尝试使用从 Json 文件创建的 schemaRDD 保存AsTable 时,它会抛出异常。有没有办法强制它与 HiveContext '绑定(bind)'并将其保存到 Hive 中?我看不出有什么明显的理由不能做。我知道有像 saveAsParquetFile 这样的选项用于数据持久性,但我们真的想利用 Hive。
最佳答案
那么,您的数据确实存在于 SchemaRDD 中吗?
您可以使用在 hive 上下文中注册 JSON RDD
hc.registerRDDasTable(rdd,"myjsontable")
“myjsontable”现在只存在于 hive 上下文中,数据仍然没有保存在那里。
然后你可以做类似的事情
hc.sql("创建表 myhivejsontable AS SELECT * FROM myjsontable")
这实际上会在 hive 中创建你的表。
您实际需要以什么格式存储它?我推荐 Parquet,因为列式存储对于查询来说会更有效。
如果你想将它存储为 JSON,你可以使用 Hive SerDe(我在这里写了一个 https://github.com/rcongiu/Hive-JSON-Serde)
我写了一篇关于在 Spark 中创建嵌套数据并将其加载到 Hive 的短文,它是用于 parquet,而不是用于 json,但它可能会有所帮助:http://www.congiu.com/creating-nested-data-parquet-in-spark-sql/
关于hive - 将 Spark SchemaRDD 保存到 Hive 数据仓库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25841274/
我在 PostgreSQL 中有一个包含 100 万行和 100 多列的数据源,我想使用 Spark SQL,所以我想转换这个数据源以获得 SchemaRDD . Spark SQL Programm
在 Spark 文档中,很清楚如何从您自己的案例类的 RDD 创建 Parquet 文件; (来自文档) val people: RDD[Person] = ??? // An RDD of case
我正在寻找一种将数据从 Apache Spark 导出到 JSON 格式的各种其他工具的方法。我认为一定有一种非常简单的方法来做到这一点。 示例:我有以下 JSON 文件“jfile.json”: {
我们有很多 Json 日志,想要构建我们的 Hive 数据仓库。将 Json 日志导入 spark schemaRDD 很容易,schemaRDD 有一个 saveAsTable 方法,但它只适用于从
有没有办法转换Avro结构到 SchemaRDD ?我在 https://issues.apache.org/jira/browse/SPARK-2736 中看到了 JavaRDD 的示例,但无法找到
在 S3 上尝试以 Parquet 格式保存非常大的 SchemaRDD 时,我遇到了许多问题。我已经针对这些问题发布了具体问题,但这正是我真正需要做的。代码应该是这样的 import org.apa
我正试图围绕 Spark SQL documentation 中的这两个函数进行思考。 —— def union(other: RDD[Row]): RDD[Row] 返回此 RDD 和另一个 RDD
我是一名优秀的程序员,十分优秀!