java - 如何将 FP-Growth 模型FrequentItemSet 结果保存到文本文件中？-6ren

java - 如何将 FP-Growth 模型FrequentItemSet 结果保存到文本文件中？

转载作者：行者123 更新时间：2023-12-01 09:52:29

24

4

我正在尝试将从模型生成的频繁项集保存到文本文件中。该代码是 Spark ML 库中 FPGrowth 示例的示例。直接在模型上使用 saveAsTextFile 会写入 RDD 位置，而不是实际值。

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.SparkConf;
import org.apache.spark.mllib.fpm.FPGrowth;
import org.apache.spark.mllib.fpm.FPGrowthModel;
import org.apache.spark.api.java.function.Function;
import java.util.Arrays;
import java.util.List;

public class Test_ItemFrequency {

    public static void main(String args[]) {

        SparkConf conf = new SparkConf().setAppName("FP-Growth_ItemFrequency").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> data = sc.textFile("/data/mllib/sample_fpgrowth.txt");

        JavaRDD<List<String>> transactions = data.map(new Function<String, List<String>>() {
            public List<String> call(String line) {
                String[] parts = line.split(" ");
                return Arrays.asList(parts);
            }
        });

        FPGrowth fpg = new FPGrowth().setMinSupport(0.2).setNumPartitions(1);
        FPGrowthModel<String> model = fpg.run(transactions);

        model.freqItemsets().saveAsTextFile("/home/data/itemset");

        sc.stop();
    }
}

文本文件中生成的输出如下

org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@754881de
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@73022909
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@25df2591
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@774b6aca
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@100ba1db
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@72a388b2
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@2e8cc8da

谁能解释一下如何解决吗？提前致谢。

最佳答案

使用 lambda 表达式:

model.freqItemsets()
     .toJavaRDD()
     .map((Function<FPGrowth.FreqItemset<String>, String>) fi -> fi.javaItems() + " -> " + fi.freq())
     .saveAsTextFile("/home/data/itemset");

我们转换了FPGrowth.FreqItemSet进入JavaRDD<String>这样我们之后就可以保存它。

解决方案没有 lambda 表达式:

model.freqItemsets()
     .toJavaRDD()
     .map(new Function<FPGrowth.FreqItemset<String>, String>() {
            @Override
            public String call(FPGrowth.FreqItemset<String> fi) {
                return fi.javaItems() + " -> " + fi.freq();
            }
        }
     ).saveAsTextFile("/home/data/itemset");

关于java - 如何将 FP-Growth 模型FrequentItemSet 结果保存到文本文件中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37518664/

24

4

0

文章推荐： ocaml - 提供可选依赖项的最简单方法是什么？

文章推荐： d3.js - 同时在两个图表上的鼠标悬停事件 d3.js

r - 计算 R growth of growth 中的 Credit Impulse
部分财务部分 R 问题我一直在尝试使用 Quantmod 包和 xts 也使用 diff 函数在 R 中复制以下公式。该代码为我提供了信用冲动图，但它似乎并没有复制我想要达到的目的。查看链接 htt
c - OpenCV - 测量对象的 "growth"
我想寻求有关 OpenCV 的一些帮助(我目前是 OpenCV 的初学者)。我打算测量物体在两帧之间的生长或运动。例如:
algorithm - Order Of Growth 复杂的循环
对于下面的代码片段，N 的增长顺序是什么？ int sum = 0; for (int i = 1; i <= N; i = i*2) for (int j = 1; j <= N; j = j*
algorithm - FP-Growth 算法的时空复杂度是多少？
我们如何计算数据挖掘中 FP_growth 算法的时间复杂度和空间复杂度？最佳答案根据我的理解，如果数据集中唯一项的数量为n，时间复杂度应该是O(n2)。复杂度取决于为头表的每个元素在 FP 树中
mdx - Period on Period growth 动态测量
我写了一个 mdx 脚本来显示 Internet Sales Amount 的周期增长，一切正常。我们正在使用一个界面，您可以在其中放置一个切片器，以便用户可以选择他感兴趣的 date.Calenda
apache-spark - FP-growth - 交易中的项目必须是唯一的
我已经在我的计算机上运行了代码并使用了频繁模式挖掘。我使用 FP-growth，但是 pyspark 抛出错误，我不知道如何解决它，所以使用 pyspark 的人可以帮助我吗？首先我得到数据 dat
apache-spark - FP-growth - 交易中的项目必须是唯一的
我已经在我的计算机上运行了代码并使用了频繁模式挖掘。我使用 FP-growth，但是 pyspark 抛出错误，我不知道如何解决它，所以使用 pyspark 的人可以帮助我吗？首先我得到数据 dat
mysql - sql : Counting growth over time
几周前我发布了有关此问题的帖子，但我不认为我问清楚了这个问题，因为我得到的答案不是我想要的。我认为最好重新开始。我正在尝试查询数据库以检索一段时间内唯一条目的数量。数据看起来像这样: 日 | 用户I
html - Flex Growth 应该只占用可用空间并防止将长文本的 child 推出
我有一个带 child 的 flex 容器，每个 child 都有一些内容(没有固定宽度的)，并且在一个 child 上我使用 flex-grow: 1;将其填充到剩余的可用空间。有时，正在成长的
java - 如何将 FP-Growth 模型FrequentItemSet 结果保存到文本文件中？
我正在尝试将从模型生成的频繁项集保存到文本文件中。该代码是 Spark ML 库中 FPGrowth 示例的示例。直接在模型上使用 saveAsTextFile 会写入 RDD 位置，而不是实际值。
java - Weka 中 FP-Growth 的数据要求是什么？
我想在我的 Weka 数据集(模型)上使用 FP-Growth 关联规则算法。不幸的是，这个算法是灰色的。我必须满足哪些先决条件才能使用它？最佳答案答案/解决方案: Weka 实现的每个算法都有
javascript - 如何在 JavaScript 中实现 GROWTH 函数
我正在尝试实现 Microsoft Excel 的 GROWTH JavaScript 中的函数。此函数使用现有数据计算预测的指数增长。它的棘手之处在于它必须使用多组 known_x's 值。我找不到
scala - 将 scala FP-growth RDD 输出转换为数据框
https://spark.apache.org/docs/2.1.0/mllib-frequent-pattern-mining.html#fp-growth sample_fpgrowth.txt
SQL 查询 : Growth of users per month in percentage
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9
hadoop - 如何从 Spark MLlib FP Growth 模型中提取数据
我在独立模式下运行 spark master 和 slaves，没有 Hadoop 集群。使用 spark-shell，我可以用我的数据快速构建一个 FPGrowthModel。模型建立后，我试图查看
c & 海湾合作委员会 : Stack growth and alignment - for a 64 bit machine
我有以下程序。我想知道为什么它在以下 64 位机器上输出 -4？我的哪些假设出错了？ [Linux ubuntu 3.2.0-23-generic #36-Ubuntu SMP Tue Apr 10
scala - 支持和提升 mllib spark/scala 中的 fp-growth 规则
我想通过 fp-growth 为生成的关联规则提取支持和提升。使用下面的代码找到规则后，我手动完成交易并计算支持和提升。我想知道是否有更简单的方法来提取此信息。谢谢! val fpg = new FP
excel - MS Excel LINEST、TREND、LOGEST 和 GROWTH 函数中的缺失值
我在 Excel 2003 中使用 GROWTH(或 LINEST 或 TREND 或 LOGEST，都犯同样的问题)函数。但有一个问题，如果某些数据丢失，该函数拒绝给出结果: 您可以 downloa
python - 如何将 PySpark 的 FP-growth 与 RDD 结合使用？
我想使用FP-growth来了解下面的RDD是否有相关的关联规则。来自 documentation我尝试了以下方法: sqlContext = SQLContext(sc) spark_df = sq
python - 在 python 中测试 APriori 和 FP-growth 的实现
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，

首页

博学

6Ren·AI

商城

java - 如何将 FP-Growth 模型FrequentItemSet 结果保存到文本文件中？