gpt4 book ai didi

python - 如何使用 csr_matrix 初始化 gensim 语料库变量?

转载 作者:太空狗 更新时间:2023-10-29 22:27:08 24 4
gpt4 key购买 nike

我将 X 作为 csr_matrix,这是我使用 scikit 的 tfidf 向量化器获得的,y 是一个数组

我的计划是使用 LDA 创建特征,但是,我未能找到如何使用 X 作为 csr_matrix 初始化 gensim 的语料库变量。换句话说,我不想下载 gensim 文档中所示的语料库,也不想将 X 转换为密集矩阵,因为它会消耗大量内存并且计算机可能会挂起。

简而言之,我的问题如下,

  1. 如果我有一个代表整个语料库的 csr_matrix(稀疏),你如何初始化 gensim 语料库?
  2. 您如何使用 LDA 提取特征?

最佳答案

Gensim 有一个半隐藏的功能,可以为您做这件事:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

“类 gensim.matutils.Sparse2Corpus(稀疏,documents_columns=True) 将 scipy.sparse 格式的矩阵转换为流式 gensim 语料库。”

我使用 CountVectorizer 提取的语料库取得了一些成功,然后加载到 gensim 中。

关于python - 如何使用 csr_matrix 初始化 gensim 语料库变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15670525/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com