gpt4 book ai didi

hadoop - 如何将存储在包含行的HDFS中的文本文件转换为Pyspark中的数据框?

转载 作者:行者123 更新时间:2023-12-02 22:00:03 24 4
gpt4 key购买 nike

我正在使用Pyspark,最近将数据帧作为文本文件存储在HDFS中,如下所示:

df.rdd.repartition(1).saveAsTextFile(path)

已成功创建文件,但内容格式如下:
Row(APP_PRESS=0.8322056773315432, LINE_PRESS=0.0, POSITION=324.17885120541024, SH_SP=-1.610030115550595, TEMP=24.300001144400007, TRIGGER=4.0869775365401934e-19, V_IND=98.36323547359974)
Row(APP_PRESS=0.8025359920151738, LINE_PRESS=0.0, POSITION=324.12892475616513, SH_SP=1.8780468896210554, TEMP=24.300001144399893, TRIGGER=-1.7645281682240943e-19, V_IND=98.36323547359977)
...

现在,我要做的就是将这些数据加载到Pyspark的数据框中,只是获得与之前保存的数据框('df')相同的数据。

我该怎么做?

最佳答案

尝试这样的事情:

df=sc.textFile(...).toDF()

但是您可以通过将上面的代码修改为以下内容来避免此步骤:
df.rdd.repartition(1).toDF()

然后保存。

关于hadoop - 如何将存储在包含行的HDFS中的文本文件转换为Pyspark中的数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47158271/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com