gpt4 book ai didi

python-2.7 - 使用 sklearn.feature_extraction.text CountVectorizer 时从文件中读取文档

转载 作者:行者123 更新时间:2023-12-02 04:47:04 26 4
gpt4 key购买 nike

我能够使用文档示例中的代码,其中 fit_transform() 函数的输入是一个句子列表,即:

corpus = [
'this is the first document',
'this is the second second document',
'and the third one',
'is this the first document?'
]

X = vectorizer.fit_transform(语料库)

并得到预期的数据。但是当我尝试用文件列表或文件对象替换语料库时,如文档所示,它可以是:

" 适合(原始文档,y=无)

Learn a vocabulary dictionary of all tokens in the raw documents.
Parameters :
raw_documents : iterable
An iterable which yields either str, unicode or file objects.
Returns :
self :

.. 所以我认为我对管道的理解缺少一些东西。给定一个我想要 CountVectorize 的文件目录,我该怎么做?如果我尝试提供文件对象列表,如 [open(file,'r')],我得到的错误消息是文件对象没有较低的函数。

最佳答案

设置矢量器的输入 constructor parameterfilenamefile。它的默认值为 content,假设您已经将文件读入内存。

关于python-2.7 - 使用 sklearn.feature_extraction.text CountVectorizer 时从文件中读取文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19592892/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com