gpt4 book ai didi

python sklearn pipiline 适合 : "AttributeError: lower not found"

转载 作者:行者123 更新时间:2023-11-30 09:33:34 26 4
gpt4 key购买 nike

我正在尝试使用 sklearn 将多个文本数据分为 3 类。但我得到了

"AttributeError: lower not found"

运行时。

代码:

train, test = train_test_split(df, random_state=42, test_size=0.3, shuffle=True)
X_train = train.contents
X_test = test.contents
Y_train = train.category
Y_test = test.category

clf_svc = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfVectorizer(tokenizer=',', use_idf=True, stop_words="english")),
('clf', OneVsRestClassifier(LinearSVC(), n_jobs=1)),
])

clf_svc = clf_svc.fit(X_train, Y_train)
predicted_svc = clf_svc(X_test)
print(np.mean(predicted_svc == Y_test))

数据框(df)由两列组成:内容(长文本数据)和类别(文本数据)。内容是抓取的文本,因此包含数十或数百个单词,类别是单个单词,例如“A”、“B”。

我已经在 stackoverflow 中检查了过去的问题,但无法解决发生的此错误。
我很高兴知道解决方案或代码本身的问题。
任何建议和答案将不胜感激。

提前致谢。

最佳答案

删除步骤 ('vect', CountVectorizer()) 或使用 TfidfTransformer 而不是 TfidfVectorizer 作为 TfidfVectorizer > 期望字符串数组作为输入,并且 CountVectorizer() 返回出现次数矩阵(即数字矩阵)。

默认情况下,TfidfVectorizer(..., lowercase=True) 将尝试“小写”所有字符串,因此会出现 “AttributeError: lower not found” 错误消息。

此外,参数 tokenizer 需要可调用(函数)或 None,因此请勿指定它。

关于python sklearn pipiline 适合 : "AttributeError: lower not found",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50192763/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com