gpt4 book ai didi

python - PySpark:StructField(..., ..., False) 总是返回 `nullable=true` 而不是 `nullable=false`

转载 作者:太空狗 更新时间:2023-10-29 21:00:28 31 4
gpt4 key购买 nike

我是 PySpark 的新手,正面临一个奇怪的问题。我试图在加载 CSV 数据集时将某些列设置为不可空。我可以使用非常小的数据集 (test.csv) 重现我的案例:

col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53

第 5 行第 2 列有一个空值,我不想在我的 DF 中获取该行。我将所有字段设置为不可为空 (nullable=false),但我得到了一个架构,其中所有三列都具有 nullable=true。即使我将所有三列都设置为不可为空,也会发生这种情况!我正在运行最新可用的 Spark 版本 2.0.1。

代码如下:

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

struct = StructType([ StructField("col1", StringType(), False), \
StructField("col2", StringType(), False), \
StructField("col3", StringType(), False) \
])

df = spark.read.load("test.csv", schema=struct, format="csv", header="true")

df.printSchema() 返回:

root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)

df.show() 返回:

+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
| 51|null| 53|
+----+----+----+

虽然我期望这样:

root
|-- col1: string (nullable = false)
|-- col2: string (nullable = false)
|-- col3: string (nullable = false)

+----+----+----+
|col1|col2|col3|
+----+----+----+
| 11| 12| 13|
| 21| 22| 23|
| 31| 32| 33|
| 41| 42| 43|
+----+----+----+

最佳答案

虽然这里的 Spark 行为(从 False 切换到 True 令人困惑,但这里并没有根本性的错误。nullable 参数不是约束,而是源和类型语义的反射(reflect),可以实现某些类型的优化

您声明要避免数据中出现空值。为此,您应该使用 na.drop 方法。

df.na.drop()

有关处理空值的其他方法,请查看 DataFrameNaFunctions (使用 DataFrame.na 属性公开)文档。

CSV 格式不提供任何允许您指定数据约束的工具,因此根据定义,读者不能假设输入不为空并且您的数据确实包含空值。

关于python - PySpark:StructField(..., ..., False) 总是返回 `nullable=true` 而不是 `nullable=false`,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39917075/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com