gpt4 book ai didi

python - 使用数组对象计算 Spark RDD 中的不同文本

转载 作者:太空宇宙 更新时间:2023-11-03 11:47:39 24 4
gpt4 key购买 nike

我有一个由文本数组组成的 spark rdd (words)。例如,

words.take(3)

会返回类似的东西。

[ ["A", "B"], ["B", "C"], ["C", "A", "D"] ]

现在,我想找出文本的总数以及文本的唯一数量。如果RDD只有以上3条记录,

total_words = 7
unique_words = 4 (only A, B,C,D)

现在为了得到总数,我做了类似的事情

text_count_rdd = words.map(lambda x: len(x))
text_count_rdd.sum()

但我一直纠结于如何检索唯一计数。

最佳答案

只是flatMap,取distinctcount:

words.flatMap(set).distinct().count()

关于python - 使用数组对象计算 Spark RDD 中的不同文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35346780/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com