- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试对大型语料库(400 万文档)进行文档分类,并在使用标准 scikit-learn 方法时不断遇到内存错误。在清理/提取我的数据后,我有一个非常稀疏的矩阵,大约有 100 万个单词。我的第一个想法是使用 sklearn.decomposition.TruncatedSVD,但由于内存错误,我无法使用足够大的 k 执行 .fit() 操作(我能做的最大只占数据方差的 25% ).我尝试遵循 sklearn 分类 here , 但在进行 KNN 分类时内存仍然不足。 我想手动进行核外矩阵变换以将 PCA/SVD 应用于矩阵以降低维数,但需要一种方法来首先计算特征向量。我希望使用scipy.sparse.linalg.eigs 有没有一种方法可以计算特征向量矩阵以完成下面显示的代码?
from sklearn.feature_extraction.text import TfidfVectorizer
import scipy.sparse as sp
import numpy as np
import cPickle as pkl
from sklearn.neighbors import KNeighborsClassifier
def pickleLoader(pklFile):
try:
while True:
yield pkl.load(pklFile)
except EOFError:
pass
#sample docs
docs = ['orange green','purple green','green chair apple fruit','raspberry pie banana yellow','green raspberry hat ball','test row green apple']
classes = [1,0,1,0,0,1]
#first k eigenvectors to keep
k = 3
#returns sparse matrix
tfidf = TfidfVectorizer()
tfs = tfidf.fit_transform(docs)
#write sparse matrix to file
pkl.dump(tfs, open('pickleTest.p', 'wb'))
#NEEDED - THIS LINE THAT CALCULATES top k eigenvectors
del tfs
x = np.empty([len(docs),k])
#iterate over sparse matrix
with open('D:\\GitHub\\Avitro-Classification\\pickleTest.p') as f:
rowCounter = 0
for dataRow in pickleLoader(f):
colCounter = 0
for col in k:
x[rowCounter, col] = np.sum(dataRow * eingenvectors[:,col])
f.close()
clf = KNeighborsClassifier(n_neighbors=10)
clf.fit(x, k_class)
如有任何帮助或指导,我们将不胜感激!如果有更好的方法来做到这一点,我很乐意尝试不同的方法,但我想在这个大型稀疏数据集上尝试 KNN,最好使用一些降维(这在我运行的小型测试数据集上表现非常好 -我不想因为愚蠢的内存限制而失去我的表现!)
编辑:这是我第一次尝试运行的代码,它引导我走上了执行我自己的核外稀疏 PCA 实现的道路。任何修复此内存错误的帮助都会使这更容易!
from sklearn.decomposition import TruncatedSVD
import pickle
dataFolder = 'D:\\GitHub\\project\\'
# in the form of a list: [word sample test word, big sample test word test, green apple test word]
descWords = pickle.load(open(dataFolder +'descriptionWords.p'))
vectorizer = TfidfVectorizer()
X_words = vectorizer.fit_transform(descWords)
print np.shape(X_words)
del descWords
del vectorizer
svd = TruncatedSVD(algorithm='randomized', n_components=50000, random_state=42)
output = svd.fit_transform(X_words)
输出:
(3995803, 923633)
---------------------------------------------------------------------------
MemoryError Traceback (most recent call last)
<ipython-input-27-c0db86bd3830> in <module>()
16
17 svd = TruncatedSVD(algorithm='randomized', n_components=50000, random_state=42)
---> 18 output = svd.fit_transform(X_words)
C:\Python27\lib\site-packages\sklearn\decomposition\truncated_svd.pyc in fit_transform(self, X, y)
173 U, Sigma, VT = randomized_svd(X, self.n_components,
174 n_iter=self.n_iter,
--> 175 random_state=random_state)
176 else:
177 raise ValueError("unknown algorithm %r" % self.algorithm)
C:\Python27\lib\site-packages\sklearn\utils\extmath.pyc in randomized_svd(M, n_components, n_oversamples, n_iter, transpose, flip_sign, random_state, n_iterations)
297 M = M.T
298
--> 299 Q = randomized_range_finder(M, n_random, n_iter, random_state)
300
301 # project M to the (k + p) dimensional space using the basis vectors
C:\Python27\lib\site-packages\sklearn\utils\extmath.pyc in randomized_range_finder(A, size, n_iter, random_state)
212
213 # generating random gaussian vectors r with shape: (A.shape[1], size)
--> 214 R = random_state.normal(size=(A.shape[1], size))
215
216 # sampling the range of A using by linear projection of r
C:\Python27\lib\site-packages\numpy\random\mtrand.pyd in mtrand.RandomState.normal (numpy\random\mtrand\mtrand.c:9968)()
C:\Python27\lib\site-packages\numpy\random\mtrand.pyd in mtrand.cont2_array_sc (numpy\random\mtrand\mtrand.c:2370)()
MemoryError:
最佳答案
scikit-learn 0.15.2 中未实现稀疏数据的核外 SVD 或 PCA。您可能想尝试 gensim相反。
编辑:我忘记在我的第一个回复中指定“关于稀疏数据”。
关于python - 用于文档分类的 scipy/sklearn 稀疏矩阵分解,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26249367/
我正在尝试在 R 中计算任意 N x J 矩阵 S 的投影矩阵 P: P = S (S'S) ^ -1 S' 我一直在尝试使用以下函数来执行此操作: P 概述 solve 基于一般方阵的 LU 分解
所以我有一个包含数千行的非常旧的文件(我猜是手工生成的),我正试图将它们移动到一个 rdb 中,但是这些行没有转换为列的格式/模式。例如,文件中的行如下所示: blah blahsdfas
这实际上只是一个“最佳实践”问题...... 我发现在开发应用程序时,我经常会得到很多 View 。 将这些 View 分解为几个 View 文件是常见的做法吗?换句话说......而不只是有view
使用以下函数foo()作为简单示例,如果可能的话,我想将...中给出的值分配给两个不同的函数。 foo args(mapply) function (FUN, ..., MoreArgs = NUL
正面案例:可以进入列表 groovy> println GroovySystem.version groovy> final data1 = [[99,2] , [100,4]] groovy> d
省略素数计算方法和因式分解方法的详细信息。 为什么要进行因式分解? 它的应用是什么? 最佳答案 哇,这个线程里有这么多争斗。 具有讽刺意味的是,这个问题有一个主要的有效答案。 因式分解实际上在加密/解
术语“分解不良”和“重构”程序是什么意思?你能举一个简单的例子来理解基本的区别吗? 最佳答案 重构是一种通用技术,可以指代许多任务。它通常意味着清理代码、去除冗余、提高代码质量和可读性。 分解不良代码
我以前有,here ,表明 C++ 函数不容易在汇编中表示。现在我有兴趣以一种或另一种方式阅读它们,因为 Callgrind 是 Valgrind 的一部分,在组装时显示它们已损坏。 所以我想要么破坏
最初,我一直在打开并同时阅读两个文件,内容如下: with open(file1, 'r') as R1: with open(file2, 'r') as R2: ### m
我正在尝试摆脱 标签和标签内的内容使用 beatifulsoup。我去看了文档,似乎是一个非常简单的调用函数。有关该功能的更多信息是 here .这是我到目前为止解析的 html 页面的内容...
给定一个 float ,我想将它分成几个部分的总和,每个部分都有给定的位数。例如,给定 3.1415926535 并要求将其分成以 10 为基数的部分,每部分 4 位数字,它将返回 3.141 + 5
我的 JSF 项目被部署为一个 EAR 文件。它还包括一些 war 文件。我需要 EAR 的分解版本(包括分解的内部 WAR)。 有什么工具可以做到吗? 最佳答案 以编程方式还是手动? EAR 和 W
以下函数不使用行透视进行 LU 分解。 R 中是否有一个现有的函数可以使用行数据进行 LU 分解? > require(Matrix) > expand(lu(matrix(rnorm(16),4,4
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 提供事实和引用来回答它. 7年前关闭。 Improve this
我正在使用登记数据进行病假研究。从登记册上,我只得到了每个人的病假开始日期和结束日期。但日期并没有逐年分割。例如,对于人 A,只有开始日期 (1-may-2016) 和结束日期 (14-feb-201
我发现以下 R 代码使用 qr 因式分解无法恢复原始矩阵。我不明白为什么。 a <- matrix(runif(180),ncol=6) a[,c(2,4)] <- 0 b <- qr(a) d <-
我正在尝试检测气候数据时间序列中的异常值,其中一些缺失的观测值。在网上搜索我发现了许多可用的方法。其中,STL 分解似乎很有吸引力,因为它去除了趋势和季节性成分并研究了其余部分。阅读 STL: A S
我想使用 javascript 分解数组中的 VIN,可能使用正则表达式,然后使用某种循环... 以下是读取 VIN 的方法: http://forum.cardekho.com/topic/600-
我正在研究 Databricks 示例。数据框的架构如下所示: > parquetDF.printSchema root |-- department: struct (nullable = true
我正在尝试简化我的代码并将其分解为多个文件。例如,我设法做到了: socket.once("disconnect", disconnectSocket); 然后有一个名为 disconnectSock
我是一名优秀的程序员,十分优秀!