- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有两个月的 Parquet 文件2017_01.parquet和2017_08.parquet,这些架构是:
2017_01. Parquet :
root
|-- value: struct (nullable = true)
| |-- version: struct (nullable = true)
| | |-- major: integer (nullable = true)
| | |-- minor: integer (nullable = true)
| |-- guid: string (nullable = true)
2017_08. Parquet :
root
|-- value: struct (nullable = true)
| |-- version: struct (nullable = true)
| | |-- major: integer (nullable = true)
| | |-- minor: integer (nullable = true)
| | |-- vnum: integer (nullable = true)
| |-- guid: string (nullable = true)
和我的代码
SQL = """
SELECT value.version.major,
value.version.minor,
value.version.vnum
FROM OUT_TABLE
LIMIT 10"""
parquetFile = spark.read.parquet("/mydata/2017_08.parquet")
parquetFile.createOrReplaceTempView("OUT_TABLE")
out_osce = spark.sql(SQL)
out_osce.show()
当我加载 2017_08.parquet show 时:
+-----+-----+----+
|major|minor|vnum|
+-----+-----+----+
| 0001| 4610|1315|
| 0002| 4610|6206|
| 0003| 4610|6125|
但是如果我像这样加载 2017_01.parquetparquetFile = Spark.read.parquet("/mydata/2017_01.parquet")
SQL 显示错误:
pyspark.sql.utils.AnalysisException: u'No such struct field vnum in major, minor; line 4 pos 11'
我知道原因是 2017_01.parquet 没有 vnum 列,我有两种解决方案,一种是使用 mergeSchema
另一个是在读取 parquet 文件时使用 schema,但这些方法也有一个大问题。
第一个解决方案需要读取2017_08.parquet,如果我不需要08的数据就会有问题,如果运气不好vnum是一个选项列而08没有这个列它仍然错误
第二种方案是在读取时给出schema,如spark.read.schema(schema).parquet("/mydata/2017_01.parquet")
,这种方式需要先写入schema,但是如果文件是非常复杂的嵌套表,用户可能无法写入架构,并且架构将更新。
我想问任何人有第三种解决方案,然后只读取2017_01.parquet并输出如下:
+-----+-----+----+
|major|minor|vnum|
+-----+-----+----+
| 0001| 4600|null|
| 0002| 4600|null|
| 0003| 4600|null|
最佳答案
我能够通过在创建选择时检查 DF 的列列表来解决类似的问题。就我而言,以下内容就足够了:
parquetFile = spark.read.parquet("").withColumn("vnum", coalesce(if
parquetFile.columns.contains("vnum") $"vnum" else lit(null)))
在您的情况下,使用嵌套架构,您可以使用类似以下内容的内容:
// Define the full struct type schema to check if nested field exists.
val structToCheck = new StructField("value", new StructType().add("version",new StructType().add("major",StringType).add("minor",StringType).add("vnum",StringType)))
val SQL = """ SELECT value.version.major,
value.version.minor,""" +
if (parquetFile.schema.contains(structToCheck))
"value.version.vnum"
else
"'' as vnum" +
"FROM OUT_TABLE LIMIT 10"
您还可以进行一些更具体的搜索,获取 value.version 结构并检查其元素。
关于python - 使用spark SQL读取Parquet格式的不存在列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46397598/
是否可以对 parquet 格式执行分布式并发写入? 是否可以在写入拼花文件时读取它们? 如果有并发读/写的方法,我有兴趣了解。 提前感谢您的帮助。 最佳答案 我最终得到了 Parquet 开发人员的
如何从命令行检查 Parquet 文件的内容? 我现在看到的唯一选择是 $ hadoop fs -get my-path local-file $ parquet-tools head local-f
我正在使用基于 Java(1.8) 的应用程序使用库创建 Parquet 文件 org.apache.avro.Schema 和 org.apache.parquet.hadoop.ParquetWr
我已经使用 pyspark 创建了多个 parquet 文件,现在我正在尝试将所有 parquet 文件合并为 1 个。我能够合并这些文件,但是在读取生成的文件时,我遇到了错误。以前有人遇到过这个问题
我创建了一个数据框,如下所示: expanded_1 = pd.DataFrame({"Point": [random.choice(points) for x in range(30000000)]
当我在 R 和 Python 中保存 Parquet 文件(使用 pyarrow)时,我得到一个保存在元数据中的箭头模式字符串。 如何读取元数据?它是 Flatbuffer 编码数据吗?架构的定义在哪
例如,pandas 的 read_csv有一个 chunk_size允许 read_csv 的参数在 CSV 文件上返回一个迭代器,以便我们可以分块读取它。 Parquet 格式以块的形式存储数据,但
我正在尝试运行最新版本的 Parquet 工具,但遇到了一些问题。出于某种原因org.apache.hadoop.conf.Configuration不在阴影的 jar 里。 (我对 v1.6.0 也
我正在使用 Parquet 框架来编写 Parquet 文件。 我使用此构造函数创建了 Parquet 作家- public class ParquetBaseWriter extends Parqu
使用 spark 和钻头,我可以查询本地 Parquet 文件。 presto 是否提供相同的功能? 换句话说,是否可以使用 presto 查询本地 Parquet 文件 - 无需通过 HDFS 或
我有一个加密的 parquet 数据文件,它被读取为一个输入流。我想从此输入流中提取单个 Parquet 记录。有什么办法可以做到这一点吗?在 avro 中,使用 DatumReader 是可能的。我
我知道 Apache Arrow Parquet 可以读取符合规范的 Delta 编码文件,但不能将它们写出。我想知道是否有任何常用的开源 C++/Python 库可以写出符合 Parquet 规范的
背景: DuckDB 允许直接查询 parquet 文件。例如con.execute("从'Hierarchy.parquet'中选择 *) Parquet 允许按列值对文件进行分区。当一个 Parq
有没有办法将一个巨大的 parquet 文件分成较小的文件(使用 Python)?保留所有列并划分行?谢谢 最佳答案 你可以用 dask 来做. import dask.dataframe as dd
我的 Parquet 文件为 800K 行 x 8.7K 列。我将其加载到 dask 数据框中: import dask.dataframe as dd dask_train_df = dd.read
我有数百个用 PyArrow 创建的 Parquet 文件。然而,其中一些文件的字段/列的名称(我们称其为 Orange)与原始列(称其为 Sporange)略有不同,因为其中一个使用了查询的变体。否
我正在尝试在配置单元中创建 Parquet 表。我可以创建它,但是当我运行 analyze table mytable compute statistics 时;我得到这个结果: numfiles=8
我知道 hdfs 会将文件拆分成大约 64mb 的 block 。我们有流式传输的数据,我们可以将它们存储到大文件或中等大小的文件中。列式文件存储的最佳大小是多少?如果我可以将文件存储到最小列为 64
我想使用 Apache 的 parquet-mr 项目通过 Java 以编程方式读取/写入 Parquet 文件。我似乎找不到任何有关如何使用此 API 的文档(除了查看源代码并查看它的使用方式)——
我在 Impala 中移动数据,而不是我的设计,我丢失了一些数据。我需要将数据从 Parquet 表复制回它们原来的非 Parquet 表。最初,开发人员使用脚本中的一个简单的一行来完成此操作。由于我
我是一名优秀的程序员,十分优秀!