gpt4 book ai didi

python - 在pyspark中处理.txt文件数据并更改数据类型

转载 作者:行者123 更新时间:2023-12-02 22:07:23 25 4
gpt4 key购买 nike

我是IT Realm 的新手。我正在尝试使用python在spark shell(pyspark)上执行简单的功能。该文件为.txt格式,并且仅包含数字。我用线上传了它

numbers_rdd = sc.textFile("/users/hadoop/numbers.txt")

我试图得到平均值
numbers_rdd.mean()

但是, the output was this

我相信这是因为我需要将文本文件中的数据从字符串转换为数字,但我不确定。请告知如何进行。

numbers_rdd.take(5) output

最佳答案

您正在从文本文件加载数字,其中数字的每一行都在不同的rdd元素中,因此:

拆分每行,转换为int并展平结果列表,以便将每个数字作为单独的元素:

numbers_rdd.flatMap(lambda x: [int(y) for y in x.split()]).mean()

关于python - 在pyspark中处理.txt文件数据并更改数据类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47606691/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com