gpt4 book ai didi

python 2.7 : create dictionary from list of sets

转载 作者:太空宇宙 更新时间:2023-11-03 17:08:45 25 4
gpt4 key购买 nike

执行一些操作后,我得到集合列表,如下所示:

from pyspark.mllib.fpm import FPGrowth

FreqItemset(items=[u'A_String_0'], freq=303)
FreqItemset(items=[u'A_String_0', u'Another_String_1'], freq=302)
FreqItemset(items=[u'B_String_1', u'A_String_0', u'A_OtherString_1'], freq=301)

我想从此列表中创建:

  1. RDD

  2. 字典,例如:

    key: A_String_0 value: 303
    key: A_String_0,Another_String_1 value: 302
    key: B_String_1,A_String_0,A_OtherString_1 value: 301

我想继续计算以产生信心和提升

我尝试执行 for 循环以获取列表中的每个项目。

问题是是否有另一种更好的方法来创建 rdd 和/或列表?

提前谢谢您。

最佳答案

  1. 如果你想要一个RDD,就不要收集freqItemsets

    model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
    freqItemsets = model.freqItemsets()

    你当然可以并行化

    结果 = model.freqItemsets().collect() sc.parallelize(结果)

  2. 我不确定你为什么需要这个(它看起来像 XY problem但您可以对收集的数据使用理解:

    {tuple(x.items): x.freq for x in result}

    {",".join(x.items): x.freq for x in result}

一般来说,如果您想对数据应用进一步的转换,请不要直接在 Spark 中收集和处理数据。

您还应该看看 Scala API。它已经实现了association rules .

关于 python 2.7 : create dictionary from list of sets,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34338320/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com