- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如果我有一个数据集X
及其标签Y
,那么我将其分为训练集和测试集,scle为0.2,并使用随机种子进行洗牌: 11
>>>X.shape
(10000, 50,50)
train_data, test_data, train_label, test_label = train_test_split(X, Y, test_size=0.2, random_state=11, shuffle=True)
如何知道分割数据中样本的原始索引是什么,这意味着反转随机洗牌?
例如,train_data[123]
对应的 X[?]
是什么?
最佳答案
根据数据的类型,您可能能够轻松获取也可能无法获取。如果训练数据中是唯一且不重复的行,则可以将 X 中的每个元素字符串化,然后使用迭代器的索引函数来标识位置。
例如。
X = ['i like wanda', 'i dont like anything', 'does this matter', 'this is choice test', 'how are you useful', 'are you mattering', 'this is a random test', 'this is my test', 'i dont like math', 'how can anything matter', 'who does matter', 'i like water', 'this is someone test', 'how does it matter', 'what is horrible', 'i dont like you', 'this is a valid test', 'this is a sample test', 'i like everything', 'i like ice cream', 'how can anything be useful', 'how is this useful', 'this is horrible', 'i dont like jokes']
Y = ['0', '0', '1', '0', '1', '1', '0', '0', '0', '1', '1', '0', '0', '1', '1', '0', '0', '0', '0', '0', '1', '1', '0', '0']
train_data, test_data, train_label, test_label = train_test_split(X, Y, test_size=0.2, random_state=11, shuffle=True)
for each in train_data:
print X.index(each)
上面会给我 X 中的原始索引。但在这种情况下这是可能的,因为 X 具有不同的元素并且是字符串类型。对于更复杂的数据类型,您可能需要进行更多处理。
关于Python、Sklearn : How to reverse train_test_split of Sklearn?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49776897/
有人可以帮助我吗?我很难知道它们之间的区别 from sklearn.model_selection import train_test_split from sklearn.cross_valida
有一个dataframe,共有14列,最后一列是目标标签,整数值为0或1。 我已经定义了: X = df.iloc[:,1:13] ---- 这由特征值组成 y = df.iloc[:,-1] ---
根据在线资源,sklearn.cross_validation 模块中的“train_test_split”函数返回随机状态的数据。 这是否意味着如果我用相同的数据训练一个模型两次,我会得到两个不同的
我正在尝试以分层方式分割数据。我认为 sklearn 中的 train_test_split 在不平衡数据集上无法按预期方式工作。 这是一个例子: from sklearn.model_selecti
我目前正在尝试使用决策树分类器训练数据集,但我无法让 train_test_split 起作用。 从下面的代码来看,CS 是目标输出,EN SN JT FT PW YR LO LA 是特征输入。 所有
我正在使用 Google colab,并且正在尝试训练卷积神经网络。用于拆分大约 11,500 张图像的数据集,每个数据的形状为 63x63x63。我使用了 sklearn 中的 train_test
我有一个问题,我一直在寻找答案,但找不到答案。 如果我有一个使用三个或更多类标记的数据集,其中每个类代表 33% 的数据。当我拆分数据时,训练/验证/测试集是否在类之间保持相同的平衡? 如果没有,有办
我刚开始使用 Python 实现机器学习,目前正在按照 YouTube 教程尝试 KNN 分类。这是代码。 import numpy as np #from sklearn.model_selecti
我已从本地目录读取图像,如下所示: from PIL import Image import os root = '/Users/xyz/Desktop/data' for path, subdirs
密切关注 scikit-learn 文档,我正在尝试安装一个虚拟分类器。但是,运行时会引发值错误。这是出乎意料的,因为之前我使用相同的数据:X = vector_data(稀疏矩阵),y = vect
我是 python 和 Keras 新手,请耐心解答我的问题。 我最近在 Keras 中创建了一个模型,对其进行了训练并获得了“均方误差 MSE”后预测。我在所使用的数据集上使用了train_test
我可以使用 train_test_split() 而不是传递 test_size 来根据索引值将数据集拆分为训练集和测试集(每 10 行作为训练数据,其余作为测试数据) 和 random_state
我有一个 pandas 数据框,我想对其进行预测并获取每个特征的均方根误差。我正在遵循手动拆分数据集的在线指南,但我认为使用 sklearn.model_selection 中的 train_test
我的数据集有 42000 行 我需要将数据集分为训练、交叉验证和测试 集,分割比例为60%、20% 和20%。这是根据 Andrew Ng 教授在他的 ml-class 讲座中的建议。 我意识到 sc
我正在使用矩阵 X 和该矩阵 y 中每一行的标签。X 定义为: df = pd.read_csv("./data/svm_matrix_0.csv", sep=',',header=None, enc
我有一个按日期索引的 pandas 数据框。让我们假设它是从 1 月 1 日到 1 月 30 日。我想将此数据集拆分为 X_train、X_test、y_train、y_test,但我不想混合日期,所
如果我计划使用交叉验证 (KFold),我是否仍应将数据集拆分为训练数据和测试数据并仅在训练集上执行训练(包括交叉验证)?或者简历会为我做一切吗?例如 选项1 X_train, X_test, y_t
我今天刚刚构建了我的第一个随机森林分类器,我正在努力提高它的性能。我正在阅读有关交叉验证对于避免数据过度拟合并因此获得更好结果的重要性。我使用 sklearn 实现了 StratifiedKFold,
有没有办法使用sklearn.model_selection.train_test_split保留训练集中特定列的所有唯一值。 让我举个例子。我知道的最常见的矩阵分解问题是预测用户在 Netflix
我是 sklearn 的新用户,对使用 sklearn.model_selection 中的 train_test_split 有疑问。我有一个形状为 (96350, 156) 的大型数据框。在我的数
我是一名优秀的程序员,十分优秀!