gpt4 book ai didi

python - SciKit LogisticRegression 无法准确预测

转载 作者:行者123 更新时间:2023-11-30 09:28:11 24 4
gpt4 key购买 nike

我有一组生成的数据,以 CSV 格式描述 Web 连接,如下所示:

conn_duration,conn_destination,response_size,response_code,is_malicious
1564,130,279,532,302,0
1024,200,627,1032,307,0
2940,130,456,3101,201,1

完整 CSV here

该类根据持续时间、destination_id 和响应代码指示哪些是感兴趣的。

我认为逻辑回归很适合这里,但我得到的结果并不好。在生成的数据集上,我有 750 行 0 类和 150 行 1 类。

这就是我操作和提供数据的方式:

names = ['conn_duration', 'conn_destination', 'response_size', 'response_code', 'is_malicious']
dataframe = pandas.read_csv(path, names=names)
array = dataframe.values

# separate array into input and output components
X = array[:,0:4]
y = array[:,4]

scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)

# summarize transformed data
numpy.set_printoptions(precision=3)
print(normalizedX[0:5,:])

model = LogisticRegression()
model.fit(X, y)

# Two test bits of data, expect the first to be predicted 1 and the second to be 0
Xnew = [[[3492, 150, 750, 200]], [[3492, 120, 901, 200]]]

for conn in Xnew:
# make a prediction
ynew = model.predict(conn)
print("X=%s, Predicted=%s" % (conn[0], ynew[0]))

恶意流量的标准是响应代码为 200,conn_destination 为 150,并且响应大小大于 500。

我得到了合理的预测,但想知道 LogisticRegression 是否是正确使用的算法?

TIA!

最佳答案

如果代码有效,但您不确定要使用什么算法,我建议尝试 SVM、随机森林等。使用 GridSearchCV模块来确定哪种算法提供最佳性能。

关于python - SciKit LogisticRegression 无法准确预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54950900/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com