- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个如下结构的数据集:
Dataset/
|
|
-----Pothole/
| |
| ------ umm001.jpg
| |
| ------ abd.jpg
| |
| ------
| |
|
|
----Road/
|
------road005.jpg
|
------ummm.jpg
|
------
|
我想将此数据集拆分为 X_train、y_train、X_test、y_test
。
这样:
### data: shuffled and split between train and test
(X_train, y_train), (X_test, y_test) = mnist.load_data()
或者,
(X_train, y_train), (X_test, y_test) = train_test_split(X,y, test_size=0.20)
我该怎么做?
最佳答案
您可以使用 os
模块构建 X
和 y
数组:
import os
X = []
y = []
base_dir = '<full path to dataset folder>/'
for f in sorted(os.listdir(base_dir)):
if os.path.isdir(base_dir+f):
print(f"{f} is a target class")
for i in sorted(os.listdir(base_dir+f)):
print(f"{i} is an input image path")
X.append(base_dir+f+'/'+i)
y.append(f)
print(X)
print(y)
然后您可以使用 train_test_split(X,y, test_size=0.20)
来获取您需要的内容,但请记住,您必须使用其他库(例如 pillow)打开图像
或 scikit-image
或类似的。
如果您打算使用pytorch
来训练神经网络,您可以使用他们的ImageFolder
class创建您的数据集。
关于python - 如何在 X_train、y_train、X_test、y_test 中分割图像数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54333202/
我有一个训练有素的决策树。当我输入一个特征向量来预测时,我想知道它是从哪个决策路径预测的,或者是在新特征属于树的哪一片叶子下预测的。 我正在使用Python的Sklearn的决策树实现。 最佳答案 有
所以我试图通过 Keras 更好地理解深度学习。我已经安装了 python、pip、tensorflow 和 jupyter Notebook 来运行它,但根据wardsdatascience.com
我是新手,但谁能告诉我出了什么问题?我实际上正在尝试根据 excel 中的数据进行预测分析(线性回归图)。然而,我的图表没有绘制出来,我也遇到了这个错误。 import pandas as pd im
我正在运行多标签分类的[代码] 1 .如何修复“X_train”未定义的NameError。Python代码如下。 import scipy from scipy.io import arff dat
我想开始使用机器学习开发应用程序。我想对文本进行分类 - 垃圾邮件或非垃圾邮件。我有 2 个文件 - spam.txt、ham.txt - 每个文件包含数千个句子。如果我想使用分类器,比如说 Logi
我正在尝试构建决策树,并在网上找到了以下代码。 我的问题是: clf.score(X_train,Y_train) 在决策树中评估什么?输出如下面的屏幕截图所示,我想知道该值是什么? clf = De
我正在处理一些图像分类问题,并为此创建了 Y Network。 Y 网络是一种具有两个输入和一个输出的神经网络。如果我们想要拟合我们的 Tensorflow 模型,我们必须在 model.fit()
我有一个如下结构的数据集: Dataset/ | | -----Pothole/ | | | ------ umm001.jpg |
我有一个如下结构的数据集: Dataset/ | | -----Pothole/ | | | ------ umm001.jpg |
我的应用是使用机器学习(卷积神经网络)的事故避免汽车系统。我的图像是 200x100 JPG 图像,输出是一个包含 4 个元素的数组:汽车将向左、向右、停止或向前移动。因此,输出将使一个元素为 1(根
我看过一些教程,以深入了解 Keras,以使用卷积神经网络进行深度学习。在教程(以及 Keras 的官方文档)中,MNIST 数据集是这样加载的: from keras.datasets import
世界各地的程序员们大家好。我在将数据输入机器学习模型时遇到问题。 我尝试使用 pandas 将 CSV 文件读入 python,然后将其拆分为训练数据和测试数据。之后,我使用 StandardScal
我使用#sample=60,000 和#features=784 训练数据 X_train。相应的标签 y_train 的 len(y_train)=60,000。 我不明白下面这段代码是如何工作的:
如果我有一个数据集 dataset = tf.keras.preprocessing.image_dataset_from_directory( directory, labels="
我正在构建一个逻辑回归分类器。 我从一组 500.000 条记录开始,我只想使用其中的一个样本。 你有什么建议: 1) 缩放总体然后采样2)缩放样本3) 仅缩放样本的 X_TRAIN 分割? 为什么?
所以我想在拆分它们(使用分层)后对训练和测试数据集执行平均目标编码,并且为了这样做,必须将它们重新合并在一起。 我该怎么做? ,任何建议将不胜感激? , 谢谢你。 X_train, X_test
如何将数据输入到keras?结构是什么?如果我有超过 2 列,具体来说 x_train 和 y_train 是什么? 这是我要输入的数据: 我试图在这个例子中定义 Xtrain 多层感知器神经网络代码
我尝试了两种实现轻型 GBM 的方法。期望它返回相同的值,但它没有。 我以为lgb.LightGBMRegressor()和 lgb.train(train_data, test_data)将返回相同
这是一个关于 Python 2.7 和 Pandas 0.17.1 中的 scikit learn(版本 0.17.0)的问题。为了使用详细的方法分割原始数据(不丢失条目)here ,我发现如果使用分
我想使用 P>|t|值并与 vif 值进行比较,并使用代码自动消除一些列。所以我想得到 P>|t|分别 x = df.drop(['price'],axis=1) y = df['price'] fr
我是一名优秀的程序员,十分优秀!