- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试使用 scikit-learn DecisionTree 和 Pandas Dataframe 对文本进行分类:首先,我构建了一个如下所示的数据框:
cat1 cat2 corpus title
0 0 1 Test Test Test erster titel
1 1 0 Test Super Super zweiter titel
2 0 1 Test Test Test dritter titel
3 0 1 Test Super Test vierter titel
4 1 0 Super Test Super fuenfter titel
5 1 1 Super einfacher Test Super fuenfter titel
6 1 1 Super simple einfacher Test Super fuenfter titel
然后我生成一个 TF-IDF 矩阵:
_matrix = generate_tf_idf_matrix(training_df['corpus'].values)
它返回一个 csr-Matrix(CountVectorizer -> TfidfTransformer)
我想用我的分类器
train_X = _matrix
train_Y = training_df[['cat1','cat2']]
多标签分类
我现在的问题是:
如何将我的数据框和我的 csr 矩阵拆分为测试集和训练集?如果我在创建矩阵之前拆分我的数据框,则 csr 矩阵具有另一个大小,因为我的文档具有不同的特征。
限制:我不想将我的矩阵转换为数组,这样我就可以轻松地拆分它。
最佳答案
scikit-learns
包已经包含一个非常强大的模块,用于 train-val-test 交叉验证功能。您可以快速查看整个模块 sklearn.cross_validation (此处为 API)。
一般train_test_split会做的工作:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)
但是,如果您的类 y
非常不平衡,您可能会对 StratifiedShuffleSplit 感兴趣它将数据拆分为训练/测试数据集,但保留每个训练/测试集中每个类的百分比。
所以在你的情况下,首先创建你的 X = _matrix
和 y = training_df[['cat1', 'cat2']]
然后使用 scikit -学习
的功能以将其拆分为训练/测试数据集。
关于python - Sklearn 将 Pandas Dataframe 和 CSR 矩阵拆分为测试和训练集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33827619/
(Python)任何人都可以建议用另一个大小为 400k*800k 的 csr 矩阵 B 的列中的值填充 csr 矩阵 A 的最简单和最快的方法。我失败的尝试: #x is a list of siz
我必须以 pem 格式提交 CSR。 我已经使用 OpenSSL 生成了 CSR,但在将其转换为 PEM 格式时遇到了困难。 我必须从 example.csr 获取示例 - csr.pem。如何实现?
两年前,我获得了 VeriSign/Symantec SSL 证书。发起此请求时,我们在与证书的通用名称无关的随机服务器上创建了一个 CSR。为了创建 Java keystore ,我执行了以下两个步
由于一些不愉快的原因,我一直在尝试使用 bouncycaSTLe API 手动构建我自己的证书签名请求。 从表面上看,我选择这样做是因为我需要 CSR 的预签名版本,以便使用存储在 HSM 中的 ke
我正在使用 OpenSSL C API 构建 CSR。代码如下: static void seedPRNG() { const int openSSLseedsize = 128; uint8_t *
我正在关注 https://godaddy.com/help/windows-generate-csr-for-code-or-driver-signing-certificate-7282 生成 C
包含公钥和组织详细信息的 CSR(证书签名请求)是否使用私钥加密? - 如果是,证书颁发机构如何解密它,因为 CSR 中的公钥也被加密了? - 如果没有,CA 如何确定 CSR 颁发者拥有私钥? 最佳
我正在 iPhone 开发者门户中使用开发配置助手,但是当我到达它要求我生成并上传 CSR 的部分时,我尝试上传它,但它只是给了我这个错误: 所选的 CSR 无效。请检查文件并重试。 有人知道这意味着
我通过钥匙串(keychain)访问生成 .certSigningRequest 文件(钥匙串(keychain)访问 -> 证书助理 -> 从证书颁发机构请求证书...,我填写了我的邮件并将其保存到
我们可以从签名的证书中生成用于证书签名的 CSR(证书签名请求)吗?当使用不同的权限再次签名时,它应该与原始私钥一起使用。 最佳答案 你不能用你现有的 key 创建一个新的 CSR 吗? openss
我正在尝试使用 Python 加密将挑战 OID 添加到 CSR 的属性部分。我已经查看了文档,到目前为止,我只能向主题添加额外的属性,但这不是我需要的。使用以下代码: OID_CHALLENGE =
我正在创建我的第一个 iOS 应用程序,并尝试设置我的推送通知证书。当我上传 CSR 证书以生成证书时,我只是看到一个旋转的轮子,上面写着“正在加载...”,该过程持续了几个小时。这个过程需要多长时间
我想找到一种方法来操作 scipy.sparse.csr_matrix,以便根据列获得其元素的总和。例如,如果我有这个: (2, 883) 0.0194935608679 (10, 883)
我目前正在学习证书签名请求 (certificates Signing Requests, csr) 的工作原理。我的 csr 的内容是这样的 openssl req -text -noout -ve
我想为 2 个域购买多域通配符证书:*.domain1.org 和 *.domain2.org 我应该如何生成 CSR?因为我尝试使用通用名称 *.domain1.org 生成它,但我尝试购买的网站不
如何在cmd.exe上运行csr生成命令 openssl req -nodes -newkey rsa:2048 -keyout www_mydomain_com.key -out www_mydom
我有一个证书请求(见底部),我希望最好从命令行 (Unix) 获取指纹。如果我的目标只是验证两台机器上 PEM 文件的完整性,我可以使用例如sha256sum csr.pem 值,但我想获得与 Pup
我想做的是,创建一个 CSR 并使用受密码保护的私钥( key )。 在 OpenSSL 中,我可以创建一个带有密码的私钥,如下所示: openssl genrsa -des3 -out privke
我正在创建一个网页来获取敏感的客户信息,并希望它位于受 SSL 保护的页面上。 CA 要求我提供 CSR。 我计划在服务器上安装 OpenSSL 并创建其中一个。 这是否意味着我在其上创建 CSR 的
我正在尝试通过以下方法创建证书请求 (CSR),我需要在其中提供私钥,我的理解是 CSR 需要/仅包含公钥信息以及有关请求者的其他详细信息,例如公司名称等等。但是如果在创建 CSR 时提取公钥并传递它
我是一名优秀的程序员,十分优秀!