gpt4 book ai didi

python - 运行 pyspark 字数统计示例

转载 作者:太空宇宙 更新时间:2023-11-03 15:51:05 25 4
gpt4 key购买 nike

我刚刚开始学习 Spark,所以如果这太明显,请耐心等待。
我安装了 Spark,并且可以在终端中运行它(通过“./bin/pyspark”)。
但我未能尝试以下示例(字数统计):

path = os.path.join("sample-text.txt")
with open(path, "w") as testFile:
_ = testFile.write("Hello world Hello")

file = sc.textFile(path)
counts = file.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)

path2 = os.path.join("word-count.txt")
counts.saveAsTextFile(path2)

一切顺利,但是当我尝试打开输出的 word-count.txt 文件时,它说无法打开该文档。
我做错了什么?

最佳答案

I was trying to open the output word-count.txt file

它创建一个名为 word-count.txt 的目录,而不是文件。

$ ls word-count.txt
_SUCCESS part-00000 part-00001 part-00002
$ cat word-count.txt/part-00000
(u'world', 1)
$ cat word-count.txt/part-00001
(u'Hello', 1)
(u'hello', 1)

你的代码可以工作。您的操作系统存在其他权限问题,导致您无法创建/打开目录。

相关(scala,但想法相同)- how to make saveAsTextFile NOT split output into multiple file?

关于python - 运行 pyspark 字数统计示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41292147/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com