gpt4 book ai didi

python-3.x - PySpark-如何使用 Pyspark 计算每个字段的最小值、最大值?

转载 作者:行者123 更新时间:2023-12-05 08:32:08 27 4
gpt4 key购买 nike

我试图找到 sql 语句产生的每个字段的 min , max 并将其写入 csv 文件。我正在尝试以以下方式获得结果。能否请你帮忙。我已经用 python 编写过,但现在尝试将其转换为 pyspark 以直接在 hadoop 集群中运行

enter image description here

from pyspark.sql.functions import max, min, mean, stddev
from pyspark import SparkContext
sc =SparkContext()
from pyspark.sql import HiveContext
hive_context = HiveContext(sc)
#bank = hive_context.table("cip_utilities.file_upload_temp")
data=hive_context.sql("select * from cip_utilities.cdm_variables_dict")
hive_context.sql("describe cip_utilities.cdm_variables_dict").registerTempTable("schema_def")
temp_data=hive_context.sql("select * from schema_def")
temp_data.show()
data1=hive_context.sql("select col_name from schema_def where data_type<>'string'")
colum_names_as_python_list_of_rows = data1.collect()
#data1.show()
for line in colum_names_as_python_list_of_rows:
#print value in MyCol1 for each row
---Here i need to calculate min, max, mean etc for this particular field send by the for loop

最佳答案

您可以使用不同的函数来查找最小值和最大值。这是使用 agg 获取有关数据框列的这些详细信息的方法之一。功能。

from pyspark.sql.functions import *
df = spark.table("HIVE_DB.HIVE_TABLE")
df.agg(min(col("col_1")), max(col("col_1")), min(col("col_2")), max(col("col_2"))).show()

不过,您也可以探索 describesummary (从 2.3 版开始)用于获取数据框中各列的基本统计信息的函数。

希望这对您有所帮助。

关于python-3.x - PySpark-如何使用 Pyspark 计算每个字段的最小值、最大值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53389938/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com