gpt4 book ai didi

python - Pyspark:读取多个csv文件并用源注释它们

转载 作者:行者123 更新时间:2023-12-02 02:03:04 27 4
gpt4 key购买 nike

我们在将批量文件摄取到 Spark 中时遇到了问题。

目前,我知道可以使用通配符完成多个文件摄取

spark.read.csv("path/to/file*.csv")

或通过传递感兴趣的路径列表

spark.read.csv(["path/to/file1.csv", "path/to/file2.csv"])

在我们的情况下,我们有大量文件(>100k),其中包含 file_name 编码的 ID,但表本身没有编码 ID。使用上述任一方法都类似于文件的简单联合,并且似乎不允许在数据集中的任何位置存储文件名。

我将如何组合所有这些 csv,同时维护文件名编码 ID。

最佳答案

有一个简单的函数叫做 input_file_name .

from pyspark.sql import functions as F

df = spark.read.csv("path/to/file*.csv").withColumn("filename", F.input_file_name())

关于python - Pyspark:读取多个csv文件并用源注释它们,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68755940/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com