gpt4 book ai didi

python - 如何通过pyspark读取gz压缩文件

转载 作者:太空狗 更新时间:2023-10-29 21:30:39 27 4
gpt4 key购买 nike

我有 .gz 压缩格式的行数据。我必须在pyspark中阅读它以下是代码片段

rdd = sc.textFile("data/label.gz").map(func)

但是我无法成功读取上面的文件。我如何读取 gz 压缩文件。我发现了一个类似的问题here但我当前的 spark 版本与该问题中的版本不同。我希望在 hadoop 中应该有一些内置函数。

最佳答案

Spark document明确指定可以自动读取gz文件:

All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/.txt"), and textFile("/my/directory/.gz").

我建议运行以下命令并查看结果:

rdd = sc.textFile("data/label.gz")

print rdd.take(10)

假设 spark 找到文件 data/label.gz,它将打印文件中的 10 行。

请注意,data/label.gz 等文件的默认位置将位于 spark 用户的 hdfs 文件夹中。在吗?

关于python - 如何通过pyspark读取gz压缩文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42761912/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com