gpt4 book ai didi

algorithm - 数据挖掘 : Apriori issue. Min-support

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:25:45 29 4
gpt4 key购买 nike

我编写了数据挖掘先验算法,它在小测试数据上运行良好,但在更大的数据集上运行它时遇到问题。

我正在尝试生成经常一起购买的元素的规则。

我的小测试数据是5个交易和10个产品。

我的大测试数据是 1100 万笔交易和大约 2700 种产品。

问题:最小支持度和过滤非频繁项。假设我们对频率为 60% 或更高的项目感兴趣。频率 = 0.60;

当我为具有 60% 频率算法的小型数据集计算 Min-support 时,将删除所有购买次数少于 3 次的项目。 最小支持 = numberOfTransactions * 频率;

但是当我尝试对大型数据集做同样的事情时,算法将在第一次迭代后过滤几乎所有项目集,只有几个项目能够满足这样的平面。

所以我开始越来越低地降低该平面,多次运行算法。但甚至没有 5% 的人给出了预期的结果。我不得不将我的频率百分比降低到 0.0005,以使其至少有 50% 的项目参与第一次迭代。

你怎么看现在的情况是不是数据的问题,因为是人为生成的? (微软冒险作品版)或者是我的代码或最小支持计算问题?

也许您可以提供任何其他解决方案或更好的方法?

谢谢!

最佳答案

也许您的数据就是这样。

如果您有很多不同的元素,而每次交易的元素很少,则元素同时出现的可能性很低。

你有没有验证结果,是剪枝不正确,还是算法正确,你的参数不好?

你真的能说出一个 Apriori 修剪但不应该修剪的项目集吗?

问题是,是的,选择参数很困难。不,先验不能使用自适应阈值,因为那不能满足单调性要求。您必须对所有项集大小使用相同的阈值。

关于algorithm - 数据挖掘 : Apriori issue. Min-support,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14861837/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com