gpt4 book ai didi

xml - 在 spark 中读取 XML

转载 作者:行者123 更新时间:2023-12-02 09:12:36 24 4
gpt4 key购买 nike

我正在尝试使用 spark-xml jar 在 pyspark 中读取 xml/嵌套 xml。

df = sqlContext.read \
.format("com.databricks.spark.xml")\
.option("rowTag", "hierachy")\
.load("test.xml"
当我执行时,数据框没有正确创建。
    +--------------------+
| att|
+--------------------+
|[[1,Data,[Wrapped...|
+--------------------+
下面提到了我的 xml 格式:
enter image description here

最佳答案

heirarchy 应该是 rootTag,att 应该是 rowTag

df = spark.read \
.format("com.databricks.spark.xml") \
.option("rootTag", "hierarchy") \
.option("rowTag", "att") \
.load("test.xml")

你应该得到
+-----+------+----------------------------+
|Order|attval|children |
+-----+------+----------------------------+
|1 |Data |[[[1, Studyval], [2, Site]]]|
|2 |Info |[[[1, age], [2, gender]]] |
+-----+------+----------------------------+

schema
root
|-- Order: long (nullable = true)
|-- attval: string (nullable = true)
|-- children: struct (nullable = true)
| |-- att: array (nullable = true)
| | |-- element: struct (containsNull = true)
| | | |-- Order: long (nullable = true)
| | | |-- attval: string (nullable = true)

查找有关 databricks xml 的更多信息

关于xml - 在 spark 中读取 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50429315/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com