gpt4 book ai didi

apache-spark - 过滤并保存数据帧的前 X 行

转载 作者:行者123 更新时间:2023-12-04 17:53:04 24 4
gpt4 key购买 nike

我正在使用 pySpark 读取和计算数据框的统计信息。

数据框看起来像:

TRANSACTION_URL    START_TIME        END_TIME           SIZE    FLAG  COL6 COL7 ...
www.google.com 20170113093210 20170113093210 150 1 ... ...
www.cnet.com 20170113114510 20170113093210 150 2 ... ...

我正在向数据框添加一个新的 timePeriod 列,添加后,我想保存前 50K 条 timePeriod 匹配一些预定义的记录值(value)。

我的目的是将这些行保存到 CSV 中带有数据帧标题

我知道这应该是 colwrite.csv 的组合,但我不确定如何根据我的意图正确使用它们。

我当前的代码是:

encodeUDF = udf(encode_time, StringType())
log_df = log_df.withColumn('timePeriod', encodeUDF(col('START_TIME')))

在添加该列之后,我猜我应该使用类似的东西:

log_df.select(col('timePeriod') == 'Weekday').write.csv(....)

有人可以帮我填补这里的空白,以符合我的意图吗?

最佳答案

<罢工> unix_timestampdate_format这里是有用的方法 START_TIME不是时间戳类型。

dfWithDayNum = log_df.withColumn("timePeriod", date_format(
unix_timestamp(col("START_TIME"), "yyyyMMddHHmmss").cast(TimestampType), "u")
)

<罢工> timePeriod将具有星期几(1 = 星期一,...,7 = 星期日)

dfWithDayNum
.filter(col("timePeriod") < 6) //to filter weekday
.limit(50000) //X lines
.write.format("csv")
.option("header", "true")
.csv("location/to/save/df")

关于apache-spark - 过滤并保存数据帧的前 X 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42872404/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com