gpt4 book ai didi

python - CountVectorizer 错误 : No such file or directory

转载 作者:太空宇宙 更新时间:2023-11-03 20:19:25 25 4
gpt4 key购买 nike

我尝试在文档上使用CountVectorizer,但我一直遇到

No such file or directory: 'id' error.

我的代码:

##%%time
## Creating a 2-level index for goog_s and amaz_s
goog_s['dataset_name'] = 'goog_s'
amaz_s['dataset_name'] = 'amaz_s'
amaz_s.rename(columns = {'title':'name'}, inplace = True)

## Creating a new Dataframe containing both goog_s and amaz_s
df_s = pd.concat([goog_s, amaz_s], axis = 0, join = 'outer', keys = ['goog_s', 'amaz_s'])

## Creating column info
df_s ["info"] = df_s["name"].astype(str) + " " + df_s["description"]


## Creating countVectorizer
cv = CountVectorizer(input='filename', encoding='iso-8859-1',
decode_error='ignore', analyzer='word',
ngram_range=(1,1), stop_words='english',
binary=True)

cvRaw = cv.fit_transform(df_s)

我在cvRaw = cv.fit_transform(df_s)行上不断收到错误,内容为FileNotFoundError: [Errno 2] No such file or directory: 'id'

我的数据框df_s包含一个名为id的列。我不知道为什么我会收到此错误。

最佳答案

您应该将 input 参数作为 'content' 提供,否则它将查找具有 fit() 中提供的列表给出的名称的文件。在您的情况下,它将是 df_s 数据帧的列名称,因为如果您使用数据帧进行迭代,它将返回列名称。

更多说明请参阅 documentation

此外,对于 fit(),您需要提供一个迭代器,这意味着 pd.Series

我不确定您的意图,以下是我的建议。

cvRaw = cv.fit_transform(df_s['info'])

关于python - CountVectorizer 错误 : No such file or directory,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58252353/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com