gpt4 book ai didi

pyspark - 将文本文件映射到键/值对,以便将它们分组到 pyspark

转载 作者:行者123 更新时间:2023-12-01 15:59:53 26 4
gpt4 key购买 nike

我想从一个文本文件在 pyspark 中创建一个 spark 数据框,它具有不同的行数和列数并将其映射到键/值对,键是文本文件第一列的前 4 个字符.我想这样做是为了删除多余的行并能够在以后按键值对它们进行分组。我知道如何在 pandas 上执行此操作,但仍然不知道在 pyspark 中从哪里开始执行此操作。

我的输入是一个包含以下内容的文本文件:

  1234567,micheal,male,usa
891011,sara,femal,germany

我希望能够按第一列的前六个字符对每一行进行分组

最佳答案

创建一个仅包含第一列的前六个字符的新列,然后按其分组:

from pyspark.sql.functions import col
df2 = df.withColumn("key", col("first_col")[:6])
df2.groupBy("key").agg(...)

关于pyspark - 将文本文件映射到键/值对,以便将它们分组到 pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53052386/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com