- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Spark 数据框,它可以从三种不同的模式版本之一加载数据:
// Original
{ "A": {"B": 1 } }
// Addition "C"
{ "A": {"B": 1 }, "C": 2 }
// Additional "A.D"
{ "A": {"B": 1, "D": 3 }, "C": 2 }
我可以通过检查架构是否包含字段“C”以及是否向数据框添加新列来处理附加“C”。但是我不知道如何为子对象创建一个字段。
public void evolvingSchema() {
String versionOne = "{ \"A\": {\"B\": 1 } }";
String versionTwo = "{ \"A\": {\"B\": 1 }, \"C\": 2 }";
String versionThree = "{ \"A\": {\"B\": 1, \"D\": 3 }, \"C\": 2 }";
process(spark.getContext(), "1", versionOne);
process(spark.getContext(), "2", versionTwo);
process(spark.getContext(), "2", versionThree);
}
private static void process(JavaSparkContext sc, String version, String data) {
SQLContext sqlContext = new SQLContext(sc);
DataFrame df = sqlContext.read().json(sc.parallelize(Arrays.asList(data)));
if(!Arrays.asList(df.schema().fieldNames()).contains("C")) {
df = df.withColumn("C", org.apache.spark.sql.functions.lit(null));
}
// Not sure what to put here. The fieldNames does not contain the "A.D"
try {
df.select("C").collect();
} catch(Exception e) {
System.out.println("Failed to C for " + version);
}
try {
df.select("A.D").collect();
} catch(Exception e) {
System.out.println("Failed to A.D for " + version);
}
}
最佳答案
JSON 源不太适合具有不断变化的模式的数据(Avro 或 Parquet 怎么样)但简单的解决方案是对所有源使用相同的模式并使新字段可选/可为空:
import org.apache.spark.sql.types.{StructType, StructField, LongType}
val schema = StructType(Seq(
StructField("A", StructType(Seq(
StructField("B", LongType, true),
StructField("D", LongType, true)
)), true),
StructField("C", LongType, true)))
您可以像这样将 schema
传递给 DataFrameReader
:
val rddV1 = sc.parallelize(Seq("{ \"A\": {\"B\": 1 } }"))
val df1 = sqlContext.read.schema(schema).json(rddV1)
val rddV2 = sc.parallelize(Seq("{ \"A\": {\"B\": 1 }, \"C\": 2 }"))
val df2 = sqlContext.read.schema(schema).json(rddV2)
val rddV3 = sc.parallelize(Seq("{ \"A\": {\"B\": 1, \"D\": 3 }, \"C\": 2 }"))
val df3 = sqlContext.read.schema(schema).json(rddV3)
并且您将获得独立于变体的一致结构:
require(df1.schema == df2.schema && df2.schema == df3.schema)
缺少的列自动设置为 null
:
df1.printSchema
// root
// |-- A: struct (nullable = true)
// | |-- B: long (nullable = true)
// | |-- D: long (nullable = true)
// |-- C: long (nullable = true)
df1.show
// +--------+----+
// | A| C|
// +--------+----+
// |[1,null]|null|
// +--------+----+
df2.show
// +--------+---+
// | A| C|
// +--------+---+
// |[1,null]| 2|
// +--------+---+
df3.show
// +-----+---+
// | A| C|
// +-----+---+
// |[1,3]| 2|
// +-----+---+
注意:
此解决方案依赖于数据源。它可能适用于也可能不适用于其他来源,或者 even result in malformed records .
关于java - 使用 Spark DataFrame 发展模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33807145/
我目前正在为 karaf 开发 bundle 并有一些问题... 我写了一个基于 cxf 的 bundle/webservice,我尝试在 karaf 中部署它,但它无法启动那个 bundle,因为它
我正在为我正在制作的快速网站使用高级 wordpress 主题。几乎所有内容都可以在管理面板中设置,这很棒,但标题大小不是其中之一,我现在发现它有点大。我想在管理面板中使用“自定义 css”部分,因为
我们正在考虑为基于 Scala 的 Akka Persistence 应用程序使用序列化方法。我们认为我们的持久化事件很可能会随着时间的推移而“演变”,因此我们希望支持模式演变,并首先考虑 Avro。
我正在开始一个新的 python 项目,主要针对可能在几年内升级到 RHEL6 的 RHEL5 机器。鉴于 python 2.4 是 RHEL5 上的标准,并且系统管理员不会支持他们必须支持的更多内容
我正在为我的 Chrome 扩展程序开发寻找一个简单的 Javascript 框架。我正在使用 jQuery 和 jQuery UI,但随着我的项目的增长,我对代码的定位变得更糟。因此,我需要某种一致
我是一名优秀的程序员,十分优秀!