gpt4 book ai didi

python - NLTK:矢量化后的特征缩减

转载 作者:行者123 更新时间:2023-11-30 09:49:30 24 4
gpt4 key购买 nike

我从大约 3000 个文档中提取了非结构化文本数据,并尝试使用这些数据对该文档进行分类。

但是,即使在删除停用词和标点符号并对数据进行词形还原之后,计数向量化也会产生超过 64000 个特征。

其中许多功能包含不必要的标记,例如不同语言的随机数和文本。

我使用过的库是:

  • 代币化:Punkt (NLTK)
  • 位置标记:Penn Treebank (NLTK)
  • 词形还原:WordNet(NLTK)
  • 矢量化:CountVectorizer (sk-learn)

谁能建议我如何减少训练分类器的特征数量?

最佳答案

这里您有两个选择,可以互补:

  1. 使用正则表达式通过更严格的规则更改您的标记化,以删除您不感兴趣的数字或其他标记。
  2. 使用特征选择来保留与分类相关的特征子集。以下是保留数据中 50% 功能的演示代码示例:

从 sklearn.datasets 导入 load_iris

from sklearn.feature_selection import SelectPercentile
from sklearn.feature_selection import chi2
import numpy
iris = load_iris()
X, y = iris.data, iris.target
selector = SelectPercentile(score_func=chi2, percentile=50)
X_reduced = selector.fit_transform(X, y)

关于python - NLTK:矢量化后的特征缩减,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47554554/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com