gpt4 book ai didi

python - CountVectorizer 和词汇外 (OOV) 标记?

转载 作者:太空狗 更新时间:2023-10-30 01:27:17 25 4
gpt4 key购买 nike

现在我正在使用 CountVectorizer 来提取特征。但是,我需要计算在拟合期间未看到的单词数。

在转换期间,CountVectorizer 的默认行为是忽略在拟合期间未观察到的单词。但我需要记录这种情况发生了多少次!

我该怎么做?

谢谢!

最佳答案

scikit-learn 中没有内置方法来执行此操作,您需要编写一些额外的代码才能执行此操作。但是,您可以使用 CountVectorizervocabulary_ 属性来实现此目的。

  1. 缓存当前词汇
  2. 调用 fit_transform
  3. 计算新词汇和缓存词汇的差异

关于python - CountVectorizer 和词汇外 (OOV) 标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40230865/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com