gpt4 book ai didi

python - 使用 LDA 的主题建模信息作为特征,通过 SVM 进行文本分类

转载 作者:太空狗 更新时间:2023-10-30 00:01:43 28 4
gpt4 key购买 nike

我想使用主题建模信息作为提供给支持向量机分类器的特征来执行文本分类。所以我想知道由于数据集的两个分区的语料库发生变化,如何通过对数据集的训练和测试分区执行 LDA 来生成主题建模特征?

我是否做出了错误的假设?

您能否提供一个示例,说明如何使用 scikit learn 来做到这一点?

最佳答案

你的假设是正确的。您要做的是根据您的训练数据训练 LDA,然后根据该训练模型转换训练和测试数据。

所以你会有这样的东西:

from sklearn.decomposition import LatentDirichletAllocation as LDA
lda = LDA(n_topics=10,...)
lda.fit(training_data)
training_features = lda.transform(training_data)
testing_features = lda.transform(testing_data)

如果我是你,如果你的弓形特征稀疏,我会使用 numpy.hstack 或 scipy.hstack 将 LDA 特征与词袋特征连接起来。

关于python - 使用 LDA 的主题建模信息作为特征,通过 SVM 进行文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41006032/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com