gpt4 book ai didi

python - 如何从 Apache Spark (pyspark) 的数据集中获取某些列?

转载 作者:太空宇宙 更新时间:2023-11-04 02:53:59 25 4
gpt4 key购买 nike

我有一个包含四列数据的数据集。

例如:

a  b  c  d
1, 2, 3, 4

...

使用 pyspark,我如何才能仅检索列 ab 的数据?我是 spark 的新手,尝试过很多东西,包括:

 dataset = data_raw.filter(lambda line: line != dataset_header) \
.map(lambda line: line.split(", ", maxsplit=2)).take(1)

但这似乎并没有给我所需的目标。我想要的只是拥有列 ab 并丢弃其余的数据集。任何帮助将不胜感激。

最佳答案

您是否尝试过仅选择两列的Select 方法..

dataset.select('a','b').show()

我认为您应该为游览数据集使用 csv 阅读器。

sc.textFile("file.csv") \
.map(lambda line: line.split(",")) \
.filter(lambda line: len(line)<=1) \
.collect()

关于python - 如何从 Apache Spark (pyspark) 的数据集中获取某些列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43004716/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com