gpt4 book ai didi

python - apache spark 加载内部文件夹

转载 作者:可可西里 更新时间:2023-11-01 16:35:45 25 4
gpt4 key购买 nike

import findspark
findspark.init('C:\spark')
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

a = []
i=1880
while i<2018:
a.append(str(i)+'/'+str(i)+'verr.csv')
i = i+1

dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a)

我运行代码但出现错误; dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a)类型错误:只能将 str(不是“列表”)连接到 str

我有一个“C:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹中有 csv 文件。我想用 Spark 阅读它们。但是我收到以下错误。我该如何解决这个问题?谢谢

最佳答案

变量“a”是一个文件列表。

dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a)

在这里,您试图将字符串 'C://venq/uyh/' 与 'a' 连接起来,这是一个列表 - 这会引发错误。尝试

root = r"C://venq/uyh/"

while i<2018:
a.append(root + str(i)+'/'+ str(i)+'verr.csv')
i = i+1

然后直接使用a

dataset1 = spark.read.format('csv').option('header','true').load(a)

关于python - apache spark 加载内部文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53242542/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com