gpt4 book ai didi

apache-spark - 为 spark RDD 中的每个键创建唯一值

转载 作者:行者123 更新时间:2023-12-05 01:36:21 24 4
gpt4 key购买 nike

我想创建一个 key, value 对的 RDD,其中每个键都有一个唯一的值。目的是“记住”键索引供以后使用,因为键可能会在分区周围洗牌,并基本上创建一个查找表。我正在矢量化一些文本并需要创建特征向量,因此我必须为每个键设置一个唯一值。

我尝试将第二个 RDD 压缩到我的键 RDD,但问题是如果两个 RDD 没有以完全相同的方式分区,你最终会丢失元素。

我的第二次尝试是使用像 the one used in scikit-learn 这样的哈希生成器但我想知道是否还有其他“spark-native”方法可以做到这一点?我使用的是 PySpark,而不是 Scala...

最佳答案

zipWithIndexzipWithUniqueId 刚刚添加到 PySpark ( https://github.com/apache/spark/pull/2092 ) 并将在即将发布的 Spark 1.1.0 版本中可用(它们目前在Spark master 分支)。

如果您使用的是旧版本的 Spark,您应该能够挑选提交以向后移植这些函数,因为我认为它只会向 rdd.py 添加行。

关于apache-spark - 为 spark RDD 中的每个键创建唯一值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25384604/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com