- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 pyspark 中使用了 df.printSchema()
,它为我提供了具有树结构的架构。现在我需要将它保存在变量或文本文件中。
我尝试了以下保存方法,但没有用。
v = str(df.printSchema())
print(v)
#and
df.printSchema().saveAsTextFile(<path>)
我需要以下格式的保存模式
|-- COVERSHEET: struct (nullable = true)
| |-- ADDRESSES: struct (nullable = true)
| | |-- ADDRESS: struct (nullable = true)
| | | |-- _VALUE: string (nullable = true)
| | | |-- _city: string (nullable = true)
| | | |-- _primary: long (nullable = true)
| | | |-- _state: string (nullable = true)
| | | |-- _street: string (nullable = true)
| | | |-- _type: string (nullable = true)
| | | |-- _zip: long (nullable = true)
| |-- CONTACTS: struct (nullable = true)
| | |-- CONTACT: array (nullable = true)
| | | |-- element: struct (containsNull = true)
| | | | |-- _VALUE: string (nullable = true)
| | | | |-- _name: string (nullable = true)
| | | | |-- _type: string (nullable = true)
最佳答案
你需要 treeString
(出于某种原因,我在 python API 中找不到)
#v will be a string
v = df._jdf.schema().treeString()
您可以将其转换为 RDD 并使用 saveAsTextFile
sc.parallelize([v]).saveAsTextFile(...)
或者使用 Python 特定的 API 将字符串写入文件。
关于python - 如何将 printSchema 的结果保存到 PySpark 中的文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50816767/
这个问题在这里已经有了答案: Datasets in Apache Spark (2 个回答) 3年前关闭。 Dataset ds = sc.read().json("/path").as(Encod
我在 pyspark 中使用了 df.printSchema(),它为我提供了具有树结构的架构。现在我需要将它保存在变量或文本文件中。 我尝试了以下保存方法,但没有用。 v = str(df.prin
我在 pyspark 中运行此代码,describe 和 printSchema 之间的输出差异令人困惑。请看下面的代码。 describe() 将分数列作为字符串给出,而当我不使用括号进行描述或使用
我正在使用 printSchema 函数来推断 Json 文件的架构。我想将此函数调用的结果保存在一个变量中以逐行解析它,以便我可以提取模式的结构并将其转换为 DDL 模式以在配置单元中创建表。 如何
我使用 Apache Spark 加载 csv 文件。 Dataset csv = session.read().schema(schema()).format("csv") .option("h
我在尝试比较两个 pyspark 数据帧的架构时遇到了一个问题。 如果我使用 df1.schema == df2.schema,它有时会返回 True 但有时会返回 False(我确信模式匹配) 但是
我是一名优秀的程序员,十分优秀!