python - CountVectorizer 和词汇外 (OOV) 标记？-6ren

python - CountVectorizer 和词汇外 (OOV) 标记？

转载作者：太空狗更新时间：2023-10-30 01:27:17

25

4

现在我正在使用 CountVectorizer 来提取特征。但是，我需要计算在拟合期间未看到的单词数。

在转换期间，CountVectorizer 的默认行为是忽略在拟合期间未观察到的单词。但我需要记录这种情况发生了多少次!

我该怎么做？

谢谢!

最佳答案

scikit-learn 中没有内置方法来执行此操作，您需要编写一些额外的代码才能执行此操作。但是，您可以使用 CountVectorizer 的 vocabulary_ 属性来实现此目的。

缓存当前词汇
调用 fit_transform
计算新词汇和缓存词汇的差异

关于python - CountVectorizer 和词汇外 (OOV) 标记？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40230865/

25

4

0

文章推荐： python - 处理模块名称冲突

文章推荐： c# - 从文件系统读取 ASPX 文件并呈现为 HTML

文章推荐： c# - 单个 SqlCommand 中的多个语句

python - 为 OOV 词添加新向量的正确方法
我正在使用一些特定于领域的语言，这些语言有很多 OOV 词以及一些拼写错误。我注意到 Spacy 只会为这些 OOV 词分配一个全零向量，所以我想知道处理这个问题的正确方法是什么。如果可能，我感谢对所
tensorflow - 初始化词汇外 (OOV) token
我正在为 NLP 任务构建 TensorFlow 模型，并且我正在使用预训练的 Glove 300d 词向量/嵌入数据集。显然，一些标记不能被解析为嵌入，因为没有包含在词向量嵌入模型的训练数据集中，
python - 如何在词嵌入模型中添加 OOV 术语
我正在使用词嵌入模型(通过 Gensim 库的 FastText)来扩展搜索术语。因此，基本上，如果用户写“操作系统”，我的目标是使用非常相似的术语(例如“os”、“windows”、“ubuntu”
machine-learning - OOV 词的词嵌入
我已经从语料库生成了单词向量，但我面临着许多单词的词汇量问题。如何使用现有的词嵌入动态生成 OOV 词的词向量？最佳答案一个非常晚的答案(甚至不是您正在寻找的答案)，但是，使用 skip-gram
python - CountVectorizer 和词汇外 (OOV) 标记？
现在我正在使用 CountVectorizer 来提取特征。但是，我需要计算在拟合期间未看到的单词数。在转换期间，CountVectorizer 的默认行为是忽略在拟合期间未观察到的单词。但我需要记
python - Conceptnet Numberbatch(多语言)OOV 词
我正在处理一个文本分类问题(在法语语料库上)，并且正在试验不同的词嵌入。我对 ConceptNet 提供的内容非常感兴趣，所以我决定试一试。我无法为我的特定任务找到专门的教程，所以我听取了他们的建议
deep-learning - 在 PyTorch 中使用预训练嵌入时处理 OOV 词的最佳方法
我在 PyTorch 中使用 word2vec 预训练嵌入(以下代码 here)。但是，它似乎无法处理看不见的单词。有什么好的方法可以解决吗？最佳答案 FastText 构建字符 ngram 向量作
neural-network - 使用预训练的词嵌入 - 如何为未知/OOV token 创建向量？
我不想加pre-trained embeddings到一个模型。但似乎没有词表外 (OOV) 代币。不存在不可见词的向量。那么我能做些什么来处理我遇到的 OOV token 呢？我有一些想法，但似乎

首页

博学

6Ren·AI

商城

python - CountVectorizer 和词汇外 (OOV) 标记？