- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将从模型生成的频繁项集保存到文本文件中。该代码是 Spark ML 库中 FPGrowth 示例的示例。直接在模型上使用 saveAsTextFile 会写入 RDD 位置,而不是实际值。
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.SparkConf;
import org.apache.spark.mllib.fpm.FPGrowth;
import org.apache.spark.mllib.fpm.FPGrowthModel;
import org.apache.spark.api.java.function.Function;
import java.util.Arrays;
import java.util.List;
public class Test_ItemFrequency {
public static void main(String args[]) {
SparkConf conf = new SparkConf().setAppName("FP-Growth_ItemFrequency").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> data = sc.textFile("/data/mllib/sample_fpgrowth.txt");
JavaRDD<List<String>> transactions = data.map(new Function<String, List<String>>() {
public List<String> call(String line) {
String[] parts = line.split(" ");
return Arrays.asList(parts);
}
});
FPGrowth fpg = new FPGrowth().setMinSupport(0.2).setNumPartitions(1);
FPGrowthModel<String> model = fpg.run(transactions);
model.freqItemsets().saveAsTextFile("/home/data/itemset");
sc.stop();
}
}
文本文件中生成的输出如下
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@754881de
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@73022909
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@25df2591
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@774b6aca
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@100ba1db
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@72a388b2
org.apache.spark.mllib.fpm.FPGrowth$FreqItemset@2e8cc8da
谁能解释一下如何解决吗?提前致谢。
最佳答案
使用 lambda 表达式:
model.freqItemsets()
.toJavaRDD()
.map((Function<FPGrowth.FreqItemset<String>, String>) fi -> fi.javaItems() + " -> " + fi.freq())
.saveAsTextFile("/home/data/itemset");
我们转换了FPGrowth.FreqItemSet
进入JavaRDD<String>
这样我们之后就可以保存它。
解决方案没有 lambda 表达式:
model.freqItemsets()
.toJavaRDD()
.map(new Function<FPGrowth.FreqItemset<String>, String>() {
@Override
public String call(FPGrowth.FreqItemset<String> fi) {
return fi.javaItems() + " -> " + fi.freq();
}
}
).saveAsTextFile("/home/data/itemset");
关于java - 如何将 FP-Growth 模型FrequentItemSet 结果保存到文本文件中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37518664/
部分财务部分 R 问题 我一直在尝试使用 Quantmod 包和 xts 也使用 diff 函数在 R 中复制以下公式。该代码为我提供了信用冲动图,但它似乎并没有复制我想要达到的目的。查看链接 htt
我想寻求有关 OpenCV 的一些帮助(我目前是 OpenCV 的初学者)。 我打算测量物体在两帧之间的生长或运动。 例如:
对于下面的代码片段,N 的增长顺序是什么? int sum = 0; for (int i = 1; i <= N; i = i*2) for (int j = 1; j <= N; j = j*
我们如何计算数据挖掘中 FP_growth 算法的时间复杂度和空间复杂度? 最佳答案 根据我的理解,如果数据集中唯一项的数量为n,时间复杂度应该是O(n2)。复杂度取决于为头表的每个元素在 FP 树中
我写了一个 mdx 脚本来显示 Internet Sales Amount 的周期增长,一切正常。我们正在使用一个界面,您可以在其中放置一个切片器,以便用户可以选择他感兴趣的 date.Calenda
我已经在我的计算机上运行了代码并使用了频繁模式挖掘。我使用 FP-growth,但是 pyspark 抛出错误,我不知道如何解决它,所以使用 pyspark 的人可以帮助我吗? 首先我得到数据 dat
我已经在我的计算机上运行了代码并使用了频繁模式挖掘。我使用 FP-growth,但是 pyspark 抛出错误,我不知道如何解决它,所以使用 pyspark 的人可以帮助我吗? 首先我得到数据 dat
几周前我发布了有关此问题的帖子,但我不认为我问清楚了这个问题,因为我得到的答案不是我想要的。我认为最好重新开始。 我正在尝试查询数据库以检索一段时间内唯一条目的数量。数据看起来像这样: 日 | 用户I
我有一个带 child 的 flex 容器,每个 child 都有一些内容(没有固定宽度的),并且在一个 child 上我使用 flex-grow: 1;将其填充到剩余的可用空间。 有时,正在成长的
我正在尝试将从模型生成的频繁项集保存到文本文件中。该代码是 Spark ML 库中 FPGrowth 示例的示例。直接在模型上使用 saveAsTextFile 会写入 RDD 位置,而不是实际值。
我想在我的 Weka 数据集(模型)上使用 FP-Growth 关联规则算法。 不幸的是,这个算法是灰色的。我必须满足哪些先决条件才能使用它? 最佳答案 答案/解决方案: Weka 实现的每个算法都有
我正在尝试实现 Microsoft Excel 的 GROWTH JavaScript 中的函数。此函数使用现有数据计算预测的指数增长。它的棘手之处在于它必须使用多组 known_x's 值。我找不到
https://spark.apache.org/docs/2.1.0/mllib-frequent-pattern-mining.html#fp-growth sample_fpgrowth.txt
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 9
我在独立模式下运行 spark master 和 slaves,没有 Hadoop 集群。使用 spark-shell,我可以用我的数据快速构建一个 FPGrowthModel。模型建立后,我试图查看
我有以下程序。我想知道为什么它在以下 64 位机器上输出 -4?我的哪些假设出错了? [Linux ubuntu 3.2.0-23-generic #36-Ubuntu SMP Tue Apr 10
我想通过 fp-growth 为生成的关联规则提取支持和提升。使用下面的代码找到规则后,我手动完成交易并计算支持和提升。我想知道是否有更简单的方法来提取此信息。谢谢! val fpg = new FP
我在 Excel 2003 中使用 GROWTH(或 LINEST 或 TREND 或 LOGEST,都犯同样的问题)函数。但有一个问题,如果某些数据丢失,该函数拒绝给出结果: 您可以 downloa
我想使用FP-growth来了解下面的RDD是否有相关的关联规则。来自 documentation我尝试了以下方法: sqlContext = SQLContext(sc) spark_df = sq
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
我是一名优秀的程序员,十分优秀!