gpt4 book ai didi

python - Python 中用于预测的逻辑回归分类器

转载 作者:行者123 更新时间:2023-11-30 09:21:54 28 4
gpt4 key购买 nike

我正在尝试制作一个接受 json 文件(pizza-train.json)(来自 this Kaggle competition )的脚本。我想从列表中的每个字典中提取 request_text 字段,并构造一个词袋表示字符串(计数列表的字符串)。

下一步是训练逻辑回归分类器来预测变量“requester_received_pizza”。我想训练 90% 的数据并预测 10%。问题是我不知道如何预测那10%。任何建议都会非常有帮助!

import json
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer


f_json = json.load(open('pizza-train.json'))
request_text = []
y = []

for item in f_json[:100]:
request_text.append(item['request_text'])
y.append(item['requester_received_pizza'])

vectorizer = CountVectorizer(min_df=1, lowercase=True, stop_words='english')

train_data_features = vectorizer.fit_transform(request_text)
train_data_features = train_data_features.toarray()


print 'Shape = '
print train_data_features.shape
vocab = vectorizer.get_feature_names()
print '\n'
print 'Vocab = '
print vocab


x_train, x_test, y_train, y_test = train_test_split(train_data_features, y, test_size=0.10)

最佳答案

你可以这样做:

alg = sklearn.linear_model.LogisticRegression()
alg.fit(x_train, y_train)
test_score = alg.score(x_test, y_test)

您应该阅读 sklearn 文档 logistic regressioncross validation ,它们非常好,并提供了更复杂的方法来验证模型。 This Kaggle Titanic 竞赛的教程也可能有用。

关于python - Python 中用于预测的逻辑回归分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32758857/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com