scala - 数据框上的 FPGrowth？-6ren

scala - 数据框上的 FPGrowth？

转载作者：行者123 更新时间：2023-11-30 09:20:42

假设我有一个这种结构的数据框:

time| asset | parameter  
----|-------|----------
T1  |  A1   | P1
T1  |  A1   | P2
T1  |  A1   | P3
T1  |  A2   | P1
T1  |  A2   | P2
T1  |  A2   | P3
T2  |  A1   | P1
....

等等

我想在此数据帧上使用 FPGrowth API(作为 spark.mllib 的一部分)，其中与同一时间戳对应的所有参数都被视为事务。我该怎么办？

documentation 中给出的示例简单地谈论正在读取的文件，每一行对应一个不同的事务。

我是 Spark 新手，因此欢迎任何形式的帮助!(Spark 版本 1.6.2 与 Scala)

最佳答案

透视您的数据，以便每个事务只有一行。

然后运行 FPgrowth。

关于scala - 数据框上的 FPGrowth？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40768888/

文章推荐： machine-learning - 当我运行 inception 预处理脚本时，它失败

文章推荐： javascript - 在 react 中，如何在获取后更新状态？

文章推荐： python - 如何设置Google机器学习任务的输出目录？

scala - 数据框上的 FPGrowth？
假设我有一个这种结构的数据框: time| asset | parameter ----|-------|---------- T1 | A1 | P1 T1 | A1 | P2 T
java - 运行 Spark fpgrowth 示例代码时出现错误
import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache
r - 使用 Sparklyr 的 FPGrowth/关联规则
我正在尝试使用 Sparklyr 构建关联规则算法，并且一直在关注此 blog这确实解释得很好。但是，在它们适合 FPGrowth 算法之后，有一个部分，作者从返回的“FPGrowthModel 对
pyspark - 如何将 FPGrowth 项集限制为 2 或 3
我正在使用 jupyter notebook 在 python3.6 中使用 pyspark 运行 FPGrowth 算法。当我试图保存生成的规则的关联规则输出是巨大的。所以我想限制结果的数量。这是我
scala - pyspark 与 scala 中的 FPgrowth 计算关联
使用: http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html Python 代码: from pyspark.ml
scala - pyspark 与 scala 中的 FPgrowth 计算关联
使用: http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html Python 代码: from pyspark.ml
python - 如何从文件中读取数据并将其传递给 Spark/PySpark 中的 FPGrowth 算法
我正在尝试从文件中读取数据(项目以逗号分隔)并使用 PySpark 将此数据传递给 FPGrowth 算法。到目前为止我的代码如下: import pyspark from pyspark impo

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - 数据框上的 FPGrowth？