python - 深度学习: Multiclass Classification with same amount of labels between the training dataset and test dataset-6ren

python - 深度学习: Multiclass Classification with same amount of labels between the training dataset and test dataset

转载作者：行者123 更新时间：2023-11-30 08:40:18

24

4

我正在编写用于进行多类分类的代码。我有 7 列(6 个特征和 1 个标签)的自定义数据集，训练数据集有 2 种类型的标签(1 和 2)，测试数据集有 3 种类型的标签(1、2 和 3)。该模型的目的是查看模型预测标签“3”的效果如何。目前，我正在尝试MLP算法，代码如下:

import tensorflow as tf
import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers.embeddings import Embedding
from keras import optimizers
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import numpy as np
from sklearn.metrics import confusion_matrix
from sklearn.utils.multiclass import unique_labels
from keras.models import load_model
from sklearn.externals import joblib
from joblib import dump, load
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
#from keras.layers import Dense, Embedding, LSTM, GRU
#from keras.layers.embeddings import Embedding


#Load the test dataset
df1 = pd.read_csv("/home/user/Desktop/FinalTestSet.csv")
test = df1

le = LabelEncoder()

test['Average_packets_per_flow'] = le.fit_transform(test['Average_packets_per_flow'])
test['Average_PktSize_per_flow'] = le.fit_transform(test['Average_PktSize_per_flow'])
test['Avg_pkts_per_sec'] = le.fit_transform(test['Avg_pkts_per_sec'])
test['Avg_bytes_per_sec'] = le.fit_transform(test['Avg_bytes_per_sec'])
test['N_pkts_per_flow'] = le.fit_transform(test['N_pkts_per_flow'])
test['N_pkts_size_per_flow'] = le.fit_transform(test['N_pkts_size_per_flow'])

#Select the x and y columns from dataset
xtest_Val = test.iloc[:,0:6].values
Ytest = test.iloc[:,6].values
#print Ytest

#MinMax Scaler
scaler = MinMaxScaler(feature_range=(-1, 1))
Xtest = scaler.fit_transform(xtest_Val)

#print Xtest

#Load the train dataset
df2 = pd.read_csv("/home/user/Desktop/FinalTrainingSet.csv")
train = df2

le = LabelEncoder()

test['Average_packets_per_flow'] = le.fit_transform(test['Average_packets_per_flow'])
test['Average_PktSize_per_flow'] = le.fit_transform(test['Average_PktSize_per_flow'])
test['Avg_pkts_per_sec'] = le.fit_transform(test['Avg_pkts_per_sec'])
test['Avg_bytes_per_sec'] = le.fit_transform(test['Avg_bytes_per_sec'])
test['N_pkts_per_flow'] = le.fit_transform(test['N_pkts_per_flow'])
test['N_pkts_size_per_flow'] = le.fit_transform(test['N_pkts_size_per_flow'])

#Select the x and y columns from dataset
xtrain_Val = train.iloc[:,0:6].values
Ytrain = train.iloc[:,6].values
#print Ytrain

#MinMax Scaler
scaler = MinMaxScaler(feature_range=(-1, 1))

# Fit the model
Xtrain = scaler.fit_transform(xtrain_Val)


#Reshape data for CNN
Xtrain = Xtrain.reshape((Xtrain.shape[0], 1, 6, 1))
print(Xtrain)
#Xtest = Xtest.reshape((Xtest.shape[0], 1, 6, 1))
#print Xtrain.shape

max_length=70
EMBEDDING_DIM=100
vocab_size=100
num_labels=2

#Define model
def init_model():
    model = Sequential()
    model.add(Dense(64, activation='relu', input_dim=Xtrain.shape[0]))
    model.add(Flatten())
    model.add(Dropout(0.5))
    model.add(Dense(64, activation='relu'))  
    model.add(Flatten())
    model.add(Dropout(0.5))
    model.add(Dense(64, activation='softmax'))
    model.add(Flatten())

#adam optimizer
    adam = optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)

    model.compile(optimizer = adam, loss='categorical_crossentropy', metrics=['accuracy'])
    return model

print('Train...')
model = init_model()

#To avoid overfitting
callbacks = [EarlyStopping('val_loss', patience=3)]
hist = model.fit(Xtrain, Ytrain, epochs=50, batch_size=50, validation_split=0.20, callbacks=callbacks, verbose=1)

#Evaluate model and print results
score, acc = model.evaluate(Xtest, Ytest, batch_size=50)
print('Test score:', score)
print('Test accuracy:', acc)

但是，我收到以下错误:

ValueError: Input 0 is incompatible with layer flatten_1: expected min_ndim=3, found ndim=2

我尝试删除展平层，但收到不同的错误:

ValueError: Error when checking input: expected dense_1_input to have shape (424686,) but got array with shape (6,)

424686 是数据集中的行数，6 是特征数。

我很感激任何建议。谢谢。

根据 Omarfoq 的建议，现在我对训练和测试数据集使用了三个标签。代码和错误保持不变。

有人可以建议我解决方案吗？谢谢。

最佳答案

我想说你所尝试的不合逻辑，如果训练集中不存在你的模型将永远不会预测类“3”。你正在尝试的事情没有任何意义。尝试重新表述您的问题。

关于python - 深度学习: Multiclass Classification with same amount of labels between the training dataset and test dataset，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59719766/

24

4

0

文章推荐： java - 局部变量初始化和开关选择

文章推荐： javascript - PHP json_encode 函数不适用于 ajax 调用

文章推荐： c# - 如何将监督数据加载到 MLContext 对象中

c++ - gtest，对 'testing::Test::~Test()' 的 undefined reference ，testing::Test::Test()
我使用 apt-get install libgtest-dev 安装了 gtest 我正在尝试检查它是否有效。所以我在 eclipse 中编写了简单的测试代码。但是有错误， undefined
perl - ($ test)=(@test)之间有什么区别？和$ test = @test;在Perl？
($test) = (@test); $test = @test; 用一个括号括住变量，它访问数组的第一个元素。我找不到有关数组括号的信息。最佳答案 ($test) = (@test); 这会将@t
unit-testing - clojure.test/are 与 clojure.test/testing
在 clojure.test 中有一个允许同时测试多个设备的宏: are . 在 clojure.test 中，可以结合 are宏与 testing ? IE。就像是: (are [scenario
unit-testing - `#[test]` 是否意味着 `#[cfg(test)]` ？
通常，Rust 中的单元测试被赋予一个单独的模块，该模块使用 #[cfg(test)] 进行条件编译: #[cfg(test)] mod tests { #[test] fn test
debugging - 你如何看待无所不在的 "Test, Test, Test!"原则？
在过去，编程很少涉及猜测。我会写几行代码，一眼就能 100% 确定代码做什么和不做什么。错误主要是拼写错误，但与功能无关。我相信在过去的几年中存在这种“试错”编程的趋势:编写代码(就像在草稿中一样)
testing - 使用多个 `--tests`
在building the Kotlin compiler之后(在提交e80a01a处): ./gradlew dist 测试未成功通过: ./gradlew compiler:test 由于很少有测
testing - 密码唯一性 : how to test?
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
testing - "fuzz testing"和 "monkey test"之间的区别
最近一直在思考模糊测试和猴子测试的区别。根据 wiki，猴子测试似乎“只是”一个单元测试，而模糊测试则不是。安卓有 UI/Application Exerciser monkey而且它看起来不像是单元
testing - 敏捷方式 : Integration Testing vs Functional Testing or both?
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - 为什么是 'make test' 和 "./test/Test"
现在我正在使用 CMake 设置一个 C++ 测试环境。其实我已经意识到我想做什么，但我对两种不同的测试输出风格感到困惑。在我下面的示例中，“make test”实际上做了什么？我认为“make te
unit-testing - VS2012 : Clear the test results in Test Explorer when re-running a test that previously failed
在 VS2012 中运行单个测试时，测试资源管理器底部会显示一个窗口，其中包括(假设失败)旁边带有“测试失败”的红色图标。紧随其后的是带有“已用时间”的失败消息。我想简单地知道是否有办法清除这个窗口
bash :如果 [ "echo test"== "test"]；然后回显 "echo test outputs test on shell"fi；可能的？
bash 是否可以从 shell 执行命令，如果它返回某个值(或空值)则执行命令？ if [ "echo test" == "test"]; then echo "echo test output
smoke-testing - 为什么 "smoke tests"被称为 "smoke tests"？
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: What is a smoke testing and what will it do for me? 为什么“冒烟
multithreading - 何时使用 Test&Set 或 Test&Test&Set？
x86 下的并行编程可能很困难，尤其是在多核 CPU 下。假设我们有多核 x86 CPU 和更多不同的多线程通信组合。单一作者和单一读者单个读者多个作者多个读者和单个作者多个读者和多个作者那
unit-testing - CTest-使用--test-command选项进行--build-and-test
我使用Ctest来运行一堆使用add_test()注册的Google测试。当前，这些测试没有任何参数。但是，我想在运行--gtest_output=xml时为它们提供所有参数(所有参数都通用，特别是c
mysql - 有人可以解释为什么当名称 = 'test' : "test" and "test " 时 MySQL 返回两个值
我有下表和数据: CREATE TABLE `test` ( `id` int(11) NOT NULL auto_increment, `name` varchar(8) NOT NULL,
testing - go test `-parallel` vs `-test.parallel` 哪个标志优先？
go test 的两个标志 -parallel 和 -test.parallel 之间的区别以及哪个标志优先？ -parallel n Allow parallel execu
unit-testing - vue.js unit :test w test-utils and Jest : How can I test - window. open() 在一个方法中？
在我的组件 AudioPlayer 中，我有一个 download() 方法: download() { this.audio.pause(); window.open(this.file,
ruby-on-rails - db :test:clone, db :test:clone_structure, db :test:load, 和 db :test:prepare? 有什么区别
您必须承认，对于 Rails 和数据库的新手来说，rubyonrails.org 上的官方解释使所有这四个任务听起来完全一样。引用: rake db:test:clone Recreate the
unit-testing - 了解 "test-first"和 "test-driven"之间的区别
我过去曾讨论过这个话题，我想我可能知道答案，但我无法正确地表达出来。这是我认为我所知道的: 如果您在编写测试之前已经有了关于事情如何工作的想法，那么我怀疑您是测试优先而不是测试驱动，因此您首先编写测

首页

博学

6Ren·AI

商城

python - 深度学习: Multiclass Classification with same amount of labels between the training dataset and test dataset