gpt4 book ai didi

python-2.7 - 使用 sklearn.feature_extraction.text CountVectorizer 时从文件读取文档

转载 作者:行者123 更新时间:2023-12-02 21:45:30 27 4
gpt4 key购买 nike

我可以使用文档中示例中的代码,其中 fit_transform() 函数的输入是句子列表,即:

corpus = [
'this is the first document',
'this is the second second document',
'and the third one',
'is this the first document?'
]

X = 矢量化器.fit_transform(语料库)

并获取预期数据。但是,当我尝试用文件列表或文件对象替换语料库时,如文档所示,它可能是:

” 适合(raw_documents,y =无)

Learn a vocabulary dictionary of all tokens in the raw documents.
Parameters :
raw_documents : iterable
An iterable which yields either str, unicode or file objects.
Returns :
self :

"

..所以我认为我对管道的理解缺少一些东西。给定一个我想要 CountVectorize 的文件目录,我该怎么做?如果我尝试提供文件对象列表,如 [open(file,'r')] ,我收到的错误消息是文件对象没有较低的功能。

最佳答案

设置矢量化器的输入 constructor parameter文件名文件。它的默认值是content,它假设您已经将文件读入内存。

关于python-2.7 - 使用 sklearn.feature_extraction.text CountVectorizer 时从文件读取文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19592892/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com