gpt4 book ai didi

pandas - CountVectorizer 方法 get_feature_names() 生成代码,但不生成单词

转载 作者:行者123 更新时间:2023-11-30 09:07:46 24 4
gpt4 key购买 nike

我正在尝试使用 sklearn CountVectorizer 对一些文本进行矢量化。之后,我想看看生成矢量化器的功能。但相反,我得到的是代码列表,而不是单词。这是什么意思以及如何处理这个问题?这是我的代码:

vectorizer = CountVectorizer(min_df=1, stop_words='english')
X = vectorizer.fit_transform(df['message_encoding'])
vectorizer.get_feature_names()

我得到了以下输出:

[u'00',
u'000',
u'0000',
u'00000',
u'000000000000000000',
u'00001',
u'000017',
u'00001_copy_1',
u'00002',
u'000044392000001',
u'0001',
u'00012',
u'0004',
u'0005',
u'00077d3',

等等。

我需要真实的功能名称(单词),而不是这些代码。有人可以帮我吗?

更新:我设法解决了这个问题,但现在当我想查看我的单词时,我看到许多单词实际上不是单词,而是毫无意义的字母集(请参阅随附的屏幕截图)。有人知道在我使用 CountVectorizer 之前如何过滤这些单词吗?

Screenshot

Screensot of the data.head()

最佳答案

您正在使用 min_df = 1,它将包括至少在一个文档中找到的所有单词,即。所有的话。 min_df 本身可以被视为一个超参数,用于删除最常用的单词。我建议使用 spacy 来标记单词并将它们作为字符串连接,然后再将其作为计数向量化器的输入。

注意:您看到的功能名称实际上是您词汇表的一部分。这只是噪音。如果要删除它们,请设置 min_df >1。

关于pandas - CountVectorizer 方法 get_feature_names() 生成代码,但不生成单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47419633/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com