gpt4 book ai didi

apache-spark - 选择 PySpark 数据框中的特定列以提高性能

转载 作者:行者123 更新时间:2023-12-04 04:00:42 26 4
gpt4 key购买 nike

使用从 Hive 导入的 Spark 数据帧,有时我最终会得到几个我不需要的列。假设我不想过滤它们

df = SqlContext.sql('select cols from mytable')

我正在导入整个表
df = SqlContext.table(mytable)

select及后续 cache提高性能/减少内存使用,比如
df = df.select('col_1', 'col_2', 'col_3')
df.cache()
df.count()

还是只是浪费时间?我会在 df 上做很多操作和数据操作, 喜欢 avg , withColumn , 等等。

最佳答案

IMO 事先过滤它们是有意义的:

df = SqlContext.sql('select col_1, col_2, col_3 from mytable')

所以你不会浪费资源...

如果你不能这样做,那么你可以按照你所做的去做......

关于apache-spark - 选择 PySpark 数据框中的特定列以提高性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37945958/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com