gpt4 book ai didi

python - 机器学习 - 大数据集的问题

转载 作者:行者123 更新时间:2023-11-30 09:22:34 25 4
gpt4 key购买 nike

我正在尝试将机器学习应用于 Kaggle.com 数据集。我的数据集的尺寸是 244768 x 34756。现在在这个尺寸下,所有 scikit 算法都不起作用。

我以为我会应用 PCA ,但即使这样也无法扩展到这个数据集。

我是否可以减少训练数据集中的冗余数据?我可以通过应用 PCA 来减少维度,但如果我可以应用 PCA。

由于我正在进行文档分类,因此我通过减小词向量大小将数据集重新采样为 244768*5672 。 PCA 甚至无法应用于此数据集。

我可以通过这种方法应用PCA吗?假设我的矩阵是 A -X = A.T * Apca(X)(X 变为 5672 x 5672 矩阵)这会给我错误的答案吗?

此外,当我应用逻辑回归时,我可以增量训练模型吗,.ie

如果 A = 10000 x 500我可以将 1000 x 500 放入logistic.fit(A),然后对其他行执行相同的操作吗?这样的训练有错吗?

最佳答案

您可以将数据分段到几个模型上,这些模型的输出将输入到下一个模型,从而给出结果。基本上是 RNN 架构。由于内存限制,将如此大量的数据放在一个网络中是不可能的。

关于python - 机器学习 - 大数据集的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29422093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com