gpt4 book ai didi

pandas - 将文本数据存储在pandas frame中,如何用sklearn实现简单的分类

转载 作者:行者123 更新时间:2023-12-01 09:52:57 24 4
gpt4 key购买 nike

我有一个框架,它在 A 列中存储文本评论,在 B 列中存储评分(1 到 5)。

id .....review ..............rating          
1 .....That was awful ......1...

我需要创建一个简单的(任何基于算法的)分类器,例如,基于 word:occurrances 词汇表等特征,它可以预测 rating > 3 或 < 3(假设我们添加另一个 col 为 1如果评级 > 3 和 0 如果 <)

我不擅长 Python 和机器学习,所以我在谷歌搜索过的所有样本上都卡住了。

请解释一下如何在该示例案例中提取特征,如何训练模型等等,或者为该案例提供一个好的导师(我无法将 sklearn 导师翻译成我的案例)。

最佳答案

您可以在 scikit 中非常轻松地做到这一点。

假设您有 X 和 y 数据:

X = ['the food was really delicious', 'the food was really terrible']
y = [5,2]

使用 CountVectorizer,您可以用两行代码将数据转换为数字:

from sklearn.feature_extraction.text import CountVectorizer
x_data = CountVectorizer().fit_transform(X)

这会将您的数据完全转换为计数,然后可以输入您想要的任何算法:

from sklearn.neighbors import KNeighbors
clf = KNeighbors().fit(x_data, y)

关于pandas - 将文本数据存储在pandas frame中,如何用sklearn实现简单的分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34317646/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com