gpt4 book ai didi

python - TfidfVectorizer 数据类型不匹配

转载 作者:行者123 更新时间:2023-12-01 05:18:50 28 4
gpt4 key购买 nike

我尝试在语料库上使用 TfidfVectorizer,但每次都会出现此错误

File "sparsefuncs.pyx", line 117, in sklearn.utils.sparsefuncs.inplace_csr_row_normalize_l2 (sklearn\utils\sparsefuncs.c:2328)
ValueError: Buffer dtype mismatch, expected 'int' but got 'long long'

这是我的代码

corpus = []
testCorpus = []
trainType = []
testType = []

with open("stone_sku.csv") as f:
cr = csv.DictReader(f)
for row in cr:
corpus.append(row['sku'])
trainType.append(row['sku'])

with open("stone_sku.csv") as f:
crTest = csv.DictReader(f)
for row in crTest:
testCorpus.append(row['sku'])
testType.append(row['sku'])

cv = TfidfVectorizer(min_df=1, analyzer='char', ngram_range=(2,3))

trainCounts = cv.fit_transform(corpus)

它与 CountVectorizer 配合得很好,如果我尝试使用 TfidfTransformer 转换数据,也会发生同样的错误

最佳答案

您运行的是 64 位 Windows 吗?这可能是由 master 分支最近修复的已知问题引起的。

关于python - TfidfVectorizer 数据类型不匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22775997/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com