pyspark - 如何在 Pyspark 中定义一个空数据框并附加相应的数据框？-6ren

pyspark - 如何在 Pyspark 中定义一个空数据框并附加相应的数据框？

转载作者：行者123 更新时间：2023-12-01 07:06:31

所以我想从目录中读取 csv 文件，作为 pyspark 数据帧，然后将它们附加到单个数据帧中。
没有在 pyspark 中获得替代方案，就像我们在 Pandas 中所做的那样。

例如在 Pandas 中，我们这样做:

files=glob.glob(path +'*.csv')

df=pd.DataFrame() 

for f in files:
    dff=pd.read_csv(f,delimiter=',')
    df.append(dff)

在 Pyspark 我试过这个但没有成功

schema=StructType([])
union_df = sqlContext.createDataFrame(sc.emptyRDD(),schema)

for f in files:
    dff = sqlContext.read.load(f,format='com.databricks.spark.csv',header='true',inferSchema='true',delimiter=',')
    df=df.union_All(dff)

真的很感激任何帮助。

谢谢

最佳答案

在 spark 2.1 中完成此操作的一种方法如下:

files=glob.glob(path +'*.csv')

for idx,f in enumerate(files):
    if idx == 0:
        df = spark.read.csv(f,header=True,inferSchema=True)
        dff = df
    else:
        df = spark.read.csv(f,header=True,inferSchema=True)
        dff=dff.unionAll(df)

关于pyspark - 如何在 Pyspark 中定义一个空数据框并附加相应的数据框？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43316716/

文章推荐： perl - 如何解决警告 "Use of assignment to $[ is deprecated"？

文章推荐： perl - 如何防止 Perl 将双反斜杠解释为单反斜杠字符？

文章推荐： ruby-on-rails - 删除模型和表，以便可以在 Rails 中重新开始

文章推荐： java - 多次正则表达式两个字符串之间的所有内容

java - 相应 try 语句的主体中永远不会抛出异常
我在 Java 中遇到异常处理问题，这是我的代码。当我尝试运行此行时出现编译器错误:throw new MojException("Bledne dane");。错误是: exception MojE
javascript - 如何在选中 asp.net、c# 中 tabcontainer 中的复选框时启用附近(相应)文本框
我刚刚开始学习asp.net。在你们的支持下，我希望我能从这个论坛学到更多东西。我的问题是，我在 asp.net 页面中有一个 TabContainer1，因为每个选项卡面板中有多个类似 (60)

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

pyspark - 如何在 Pyspark 中定义一个空数据框并附加相应的数据框？