gpt4 book ai didi

apache-spark - 将 "|"分隔的标题和列数据转换为具有特定标题名称和 pyspark 中的数据行的单独列

转载 作者:行者123 更新时间:2023-12-04 08:30:08 25 4
gpt4 key购买 nike

我在 pyspark 中阅读了一个 txt 文件,用于使用运算符“|”的作业分隔 3 列数据。
如何在适当的数组中分隔这 3 列?这是我迄今为止取得的成就:

+---------------------+
|bid|gender|department|
+---------------------+
| 1|M|Informatics|
| 2|M|Low|
+---------------------+
如您所见,标题已创建,但未分隔为后跟数据的列。

最佳答案

尝试指定 delimiter 选项为 | 并阅读为 .csv pyspark 中的文件
Example:

df=spark.read.option("header","true").option("delimiter","|").csv("<path_to_csv_file>")
df.show()
#+---+------+-----------+
#|bid|gender| department|
#+---+------+-----------+
#| 1| M|Informatics|
#| 2| M| Low|
#+---+------+-----------+
UPDATE:
#Save dataframe as file
df.write.mode("either overwrite/append ").option("header","true").save("location")

#writing to hive table
df.write.saveAsTable("<db>.<table_name>")

关于apache-spark - 将 "|"分隔的标题和列数据转换为具有特定标题名称和 pyspark 中的数据行的单独列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65066528/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com