python - 什么是 X_train 和 y

python - 什么是 X_train 和 y_train？

转载作者：太空狗更新时间：2023-10-30 02:53:10

26

4

我想开始使用机器学习开发应用程序。我想对文本进行分类 - 垃圾邮件或非垃圾邮件。我有 2 个文件 - spam.txt、ham.txt - 每个文件包含数千个句子。如果我想使用分类器，比如说 LogisticRegression。

例如，正如我在网上看到的那样，为了适合我的模型，我需要这样做:

`lr = LogisticRegression()
model = lr.fit(X_train, y_train)`

那么我的问题来了，X_train 和 y_train 到底是什么？我怎样才能从我的句子中得到它们？我在互联网上搜索，我不明白，这是我最后一次打电话，我对这个话题很陌生。谢谢!

最佳答案

根据文档(参见 here):

X 对应于形状为 (n_samples, n_features) 的 float 特征矩阵(也就是训练集的设计矩阵)
y 是形状为 (n_samples,) 的浮点目标向量(标签向量)。在您的情况下，标签 0 可能对应于垃圾邮件示例，而 1 对应于垃圾邮件示例

The question is now about how to get a float feature matrix from text data.

一个常见的方案是使用 tf-idf 矢量化(更多关于 here )，它在 sklearn 中可用。 .

矢量化可以通过 Pipeline 与逻辑回归链接起来sklearn 的 API。

代码大概是这样的

from itertools import chain

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

import numpy as np

# prepare string data
with open('spam.txt', 'r') as f:
   spam = f.readlines()

with open('ham.txt', 'r') as f:
   ham = f.readlines()

text_train = list(chain(spam, ham))

# prepare labels
labels_train = np.concatenate((np.zeros(len(spam)),np.ones(len(ham))))

# build pipeline
vectorizer = TfidfVectorizer()
regressor = LogisticRegression()

pipeline = Pipeline([('vectorizer', vectorizer), ('regressor', regressor)])

# fit pipeline
pipeline.fit(text_train, labels_train)

# test predict
test = ["Is this spam or ham?"]
pipeline.predict(test) # value in [0,1]

关于python - 什么是 X_train 和 y_train？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50662425/

26

4

0

文章推荐： python - "Hot"算法总是返回0

文章推荐： python - 盘中数据的每日高/低

文章推荐： python - Pandas :按满足条件的列分组

文章推荐： python - 在 Python Dataflow/Apache Beam 上启动 CloudSQL 代理

python - 如何根据条件删除 y_train 数组中值的百分比
我是 Python 新手，我有一个关于删除数组 y_train 中 50% 的值的问题，但只删除 value = 0 的值所以我使用train_test_split来创建x_test x_train
python - 什么是 X_train 和 y_train？
我想开始使用机器学习开发应用程序。我想对文本进行分类 - 垃圾邮件或非垃圾邮件。我有 2 个文件 - spam.txt、ham.txt - 每个文件包含数千个句子。如果我想使用分类器，比如说 Logi
python - clf.score(X_train,Y_train) 在决策树中评估什么？
我正在尝试构建决策树，并在网上找到了以下代码。我的问题是: clf.score(X_train,Y_train) 在决策树中评估什么？输出如下面的屏幕截图所示，我想知道该值是什么？ clf = De
tensorflow - 如何从 ImageDataGenerator 获取 x_train 和 y_train？
我正在处理一些图像分类问题，并为此创建了 Y Network。 Y 网络是一种具有两个输入和一个输出的神经网络。如果我们想要拟合我们的 Tensorflow 模型，我们必须在 model.fit()
python - 如何在 X_train、y_train、X_test、y_test 中分割图像数据集？
我有一个如下结构的数据集: Dataset/ | | -----Pothole/ | | | ------ umm001.jpg |
python - 如何在 X_train、y_train、X_test、y_test 中分割图像数据集？
我有一个如下结构的数据集: Dataset/ | | -----Pothole/ | | | ------ umm001.jpg |
machine-learning - reshape y_train 以在 Tensorflow 中进行二进制文本分类
我有一个经典的 y_train，它由一维形状的 0(负)和 1(正)组成。我想训练一个 tensorflow 模型，但我必须用我想要的类数初始化 y 占位符。因此，在这个文本分类案例中，我希望模型检查
python - 这种python如何索引: 'print(X_train[y_train == 0][0])' work in python?
我使用#sample=60,000 和#features=784 训练数据 X_train。相应的标签 y_train 的 len(y_train)=60,000。我不明白下面这段代码是如何工作的:
python - 如何将 tf.data.Dataset 拆分为 x_train、y_train、x_test、y_test for keras
如果我有一个数据集 dataset = tf.keras.preprocessing.image_dataset_from_directory( directory, labels="
python - 运行时错误: expected scalar type Long but found Int in loss = criterion(outputs, y_train)
我使用特征 dim = [1124823,13] 和标签 dim = [1124823,1] 构建了这个声学模型，并将两者拆分为训练、测试和开发。当我尝试运行模型时出现此错误的问题运行时错误:预期标
python-3.x - 用 sklearn 拆分后如何重新合并 X_test 和 y_test & x_train 和 y_train？
所以我想在拆分它们(使用分层)后对训练和测试数据集执行平均目标编码，并且为了这样做，必须将它们重新合并在一起。我该怎么做？，任何建议将不胜感激？ , 谢谢你。 X_train, X_test
neural-network - 如何将数据输入到 Keras 中？如果我有超过 2 列，具体来说 x_train 和 y_train 是什么？
如何将数据输入到keras？结构是什么？如果我有超过 2 列，具体来说 x_train 和 y_train 是什么？这是我要输入的数据: 我试图在这个例子中定义 Xtrain 多层感知器神经网络代码
python - model.LGBMRegressor.fit(x_train, y_train) 和 lightgbm.train(train_data, valid_sets = test_data) 有什么区别？
我尝试了两种实现轻型 GBM 的方法。期望它返回相同的值，但它没有。我以为lgb.LightGBMRegressor()和 lgb.train(train_data, test_data)将返回相同
python-2.7 - sklearn grid.fit(X,y) - 错误 : “positional indexers are out-of-bounds” for X_train, y_train
这是一个关于 Python 2.7 和 Pandas 0.17.1 中的 scikit learn(版本 0.17.0)的问题。为了使用详细的方法分割原始数据(不丢失条目)here ，我发现如果使用分
python - 我想将 sm.OLS(y_train,x_train).fit().summary() 的结果存储到数据帧中，以便我可以使用 P>|t|通过代码实现值(value)
我想使用 P>|t|值并与 vif 值进行比较，并使用代码自动消除一些列。所以我想得到 P>|t|分别 x = df.drop(['price'],axis=1) y = df['price'] fr

首页

博学

6Ren·AI

商城

python - 什么是 X_train 和 y_train？