gpt4 book ai didi

machine-learning - 决策树 - 稀疏数据集

转载 作者:行者123 更新时间:2023-11-30 09:13:32 31 4
gpt4 key购买 nike

我的数据集非常稀疏,具有大量属性(约 12 K 特征和 700K 记录),我无法将其放入内存中(属性值是二项式,即 True/False),

由于数据集稀疏,我将数据集保留为(ID,特征)格式,因此例如我将拥有以下记录:
(ID、特征)
(110,d_0022)
(110,d_2393)
(110,i_2293)
(822,d_933)
(822,p_2003)
....

因此,对于 ID 为 110 的记录,我们将拥有三个具有真值的属性 (d_0022 ; 2_2393 ; i_2293),其余属性均为假(属性都是属性“feature”的不同值)

是否有任何可用的软件可以实现一种算法来训练此类数据集,这样我就不必首先制作整个数据集?

(目前我正在使用rapidminer)

最佳答案

您可以使用R的稀疏矩阵 ( example ) 或 WekaSparseIstance (甚至 BinarySparseInstance )。如果稀疏矩阵仍然无法容纳内存,可以使用 Mahout Amazon EC2 上的小集群运行 SVD,减少矩阵的维度,以便它们可以正常处理。

我几乎没有RapidMiner的经验,但可能它也有一些稀疏矩阵的实现。

关于machine-learning - 决策树 - 稀疏数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14176589/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com