gpt4 book ai didi

apache-spark - 查找最新文件 pyspark

转载 作者:行者123 更新时间:2023-12-04 01:56:09 25 4
gpt4 key购买 nike

所以我想出了如何使用 python 查找最新文件。现在我想知道我是否可以使用 pyspark 找到最新的文件。目前我指定了一个路径,但我希望 pyspark 获取最新修改的文​​件。

当前代码如下所示:

df = sc.read.csv("Path://to/file", header=True, inderSchema=True)

预先感谢您的帮助。

最佳答案

我从这个答案复制了代码以使 HDFS API 与 PySpark 一起工作:Pyspark: get list of files/directories on HDFS path

URI           = sc._gateway.jvm.java.net.URI
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem = sc._gateway.jvm.org.apache.hadoop.fs.s3.S3FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration

fs = # Create S3FileSystem object here

files = fs.listStatus(Path("Path://to/file"))

# You can also filter for directory here
file_status = [(file.getPath().toString(), file.getModificationTime()) for file in files]

file_status.sort(key = lambda tup: tup[1], reverse= True)

most_recently_updated = file_status[0][0]

spark.read.csv(most_recently_updated).option(...)

关于apache-spark - 查找最新文件 pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50526076/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com