python - Sklearn 将 Pandas Dataframe 和 CSR 矩阵拆分为测试和训练集-6ren

python - Sklearn 将 Pandas Dataframe 和 CSR 矩阵拆分为测试和训练集

转载作者：太空狗更新时间：2023-10-30 02:58:29

25

4

我正在尝试使用 scikit-learn DecisionTree 和 Pandas Dataframe 对文本进行分类:首先，我构建了一个如下所示的数据框:

   cat1  cat2                             corpus           title
0     0     1                     Test Test Test    erster titel
1     1     0                   Test Super Super   zweiter titel
2     0     1                     Test Test Test   dritter titel
3     0     1                    Test Super Test   vierter titel
4     1     0                   Super Test Super  fuenfter titel
5     1     1         Super einfacher Test Super  fuenfter titel
6     1     1  Super simple einfacher Test Super  fuenfter titel

然后我生成一个 TF-IDF 矩阵:

_matrix = generate_tf_idf_matrix(training_df['corpus'].values)

它返回一个 csr-Matrix(CountVectorizer -> TfidfTransformer)

我想用我的分类器

    train_X = _matrix
    train_Y = training_df[['cat1','cat2']]

多标签分类

我现在的问题是:

如何将我的数据框和我的 csr 矩阵拆分为测试集和训练集？如果我在创建矩阵之前拆分我的数据框，则 csr 矩阵具有另一个大小，因为我的文档具有不同的特征。

限制:我不想将我的矩阵转换为数组，这样我就可以轻松地拆分它。

最佳答案

scikit-learns 包已经包含一个非常强大的模块，用于 train-val-test 交叉验证功能。您可以快速查看整个模块 sklearn.cross_validation (此处为 API)。

一般train_test_split会做的工作:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

但是，如果您的类 y 非常不平衡，您可能会对 StratifiedShuffleSplit 感兴趣它将数据拆分为训练/测试数据集，但保留每个训练/测试集中每个类的百分比。

所以在你的情况下，首先创建你的 X = _matrix 和 y = training_df[['cat1', 'cat2']] 然后使用 scikit -学习的功能以将其拆分为训练/测试数据集。

关于python - Sklearn 将 Pandas Dataframe 和 CSR 矩阵拆分为测试和训练集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33827619/

25

4

0

文章推荐： python - pickle Spark RDD 并将其读入 Python

文章推荐： python - Python 中的通用类工厂

文章推荐： python - Pandas :如何绘制带有标签的数据框的条形图？

python - 使用另一个 CSR 矩阵的列填充空的 CSR 稀疏矩阵并对其进行切片
(Python)任何人都可以建议用另一个大小为 400k*800k 的 csr 矩阵 B 的列中的值填充 csr 矩阵 A 的最简单和最快的方法。我失败的尝试: #x is a list of siz
private-key - 我如何将 .csr 转换为 .pem 文件格式，因为我必须以 pem 格式提交 csr
我必须以 pem 格式提交 CSR。我已经使用 OpenSSL 生成了 CSR，但在将其转换为 PEM 格式时遇到了困难。我必须从 example.csr 获取示例 - csr.pem。如何实现？
java - 使用新的 CSR(不是原始 CSR)通过 Symantec 续订来续订 Java Keystore 的命令
两年前，我获得了 VeriSign/Symantec SSL 证书。发起此请求时，我们在与证书的通用名称无关的随机服务器上创建了一个 CSR。为了创建 Java keystore ，我执行了以下两个步
java - 为什么 Symantec CSR 检查程序认为我的 CSR 在 AlgorithmIdentifier 中缺少 NULL 值？ RFC3279
由于一些不愉快的原因，我一直在尝试使用 bouncycaSTLe API 手动构建我自己的证书签名请求。从表面上看，我选择这样做是因为我需要 CSR 的预签名版本，以便使用存储在 HSM 中的 ke
c - Windows 2008R2 CA 和 OpenSSL CSR : Error parsing CSR ASN1 bad value met
我正在使用 OpenSSL C API 构建 CSR。代码如下: static void seedPRNG() { const int openSSLseedsize = 128; uint8_t *
csr - 使用管理控制台生成证书签名请求
我正在关注 https://godaddy.com/help/windows-generate-csr-for-code-or-driver-signing-certificate-7282 生成 C
ssl - CSR 是否使用私钥加密？
包含公钥和组织详细信息的 CSR(证书签名请求)是否使用私钥加密？ - 如果是，证书颁发机构如何解密它，因为 CSR 中的公钥也被加密了？ - 如果没有，CA 如何确定 CSR 颁发者拥有私钥？最佳
iPhone 开发者门户不接受我的 CSR
我正在 iPhone 开发者门户中使用开发配置助手，但是当我到达它要求我生成并上传 CSR 的部分时，我尝试上传它，但它只是给了我这个错误: 所选的 CSR 无效。请检查文件并重试。有人知道这意味着
ios - 无效证书 (CSR)
我通过钥匙串(keychain)访问生成 .certSigningRequest 文件(钥匙串(keychain)访问 -> 证书助理 -> 从证书颁发机构请求证书...，我填写了我的邮件并将其保存到
openssl - 从现有证书生成 CSR
我们可以从签名的证书中生成用于证书签名的 CSR(证书签名请求)吗？当使用不同的权限再次签名时，它应该与原始私钥一起使用。最佳答案你不能用你现有的 key 创建一个新的 CSR 吗？ openss
Python 密码学生成带有属性部分挑战的 CSR
我正在尝试使用 Python 加密将挑战 OID 添加到 CSR 的属性部分。我已经查看了文档，到目前为止，我只能向主题添加额外的属性，但这不是我需要的。使用以下代码: OID_CHALLENGE =
iOS CSR 证书未正确生成
我正在创建我的第一个 iOS 应用程序，并尝试设置我的推送通知证书。当我上传 CSR 证书以生成证书时，我只是看到一个旋转的轮子，上面写着“正在加载...”，该过程持续了几个小时。这个过程需要多长时间
python - CSR 矩阵中元素的总和
我想找到一种方法来操作 scipy.sparse.csr_matrix，以便根据列获得其元素的总和。例如，如果我有这个: (2, 883) 0.0194935608679 (10, 883)
ssl - CSR 的数字签名是如何生成的？
我目前正在学习证书签名请求 (certificates Signing Requests, csr) 的工作原理。我的 csr 的内容是这样的 openssl req -text -noout -ve
ssl - 如何为通配符多域证书生成 CSR
我想为 2 个域购买多域通配符证书:*.domain1.org 和 *.domain2.org 我应该如何生成 CSR？因为我尝试使用通用名称 *.domain1.org 生成它，但我尝试购买的网站不
ssl - 从本地计算机生成 CSR
如何在cmd.exe上运行csr生成命令 openssl req -nodes -newkey rsa:2048 -keyout www_mydomain_com.key -out www_mydom
ssl - 证书请求的指纹 (CSR)
我有一个证书请求(见底部)，我希望最好从命令行 (Unix) 获取指纹。如果我的目标只是验证两台机器上 PEM 文件的完整性，我可以使用例如sha256sum csr.pem 值，但我想获得与 Pup
ssl - 使用现有私钥创建 CSR
我想做的是，创建一个 CSR 并使用受密码保护的私钥( key )。在 OpenSSL 中，我可以创建一个带有密码的私钥，如下所示: openssl genrsa -des3 -out privke
ssl - CSR 是唯一的吗？
我正在创建一个网页来获取敏感的客户信息，并希望它位于受 SSL 保护的页面上。 CA 要求我提供 CSR。我计划在服务器上安装 OpenSSL 并创建其中一个。这是否意味着我在其上创建 CSR 的
ssl - 为什么我必须从私钥创建证书请求 (CSR)？
我正在尝试通过以下方法创建证书请求 (CSR)，我需要在其中提供私钥，我的理解是 CSR 需要/仅包含公钥信息以及有关请求者的其他详细信息，例如公司名称等等。但是如果在创建 CSR 时提取公钥并传递它

首页

博学

6Ren·AI

商城

python - Sklearn 将 Pandas Dataframe 和 CSR 矩阵拆分为测试和训练集