python - 如何进行多标签分层抽样？-6ren

python - 如何进行多标签分层抽样？

转载作者：行者123 更新时间：2023-12-03 22:12:32

31

4

我正在处理多标签数据，我想使用分层抽样。假设我有 10 个类，我们称它们为“ABCDEFGHIJ”。我有一个包含 10 列的数据框，对应于每个标签，其中包含有关条目的其余信息。我可以在 n_entry*10 矩阵中提取这 10 列，我将其称为 label_values

例如，一行 label_values 看起来像 [0,0,1,1,0,0,0,0,0,0] 并且这个特定的行意味着条目具有标签 C 和标签 D。

我想在训练和验证集中对我的数据进行拆分，并且我希望在训练和验证中每个标签的比例相同。为了执行我的拆分，我使用了 Sklearn train_test_split 函数(在我需要分层之前)，它恰好有一个参数分层。目前的行为是将multi_label行为变成multiclass one(我们认为[A,B]是一个全新的类，与A类和B类完全不同)。因此，有些类只有 1 个元素，这会引发错误:

ValueError("The least populated class in y has only 1"
                         " member, which is too few. The minimum"
                         " number of groups for any class cannot"
                         " be less than 2.")

来自 StratifiedShuffleSplit 类的 _iter_indices 的 sklearn/model_selection/_split.py :

if np.min(class_counts) < 2:
        raise ValueError("The least populated class in y has only 1"
                         " member, which is too few. The minimum"
                         " number of groups for any class cannot"
                         " be less than 2.")

我的解决方法是覆盖此方法以删除此检查。这有效，并且我在训练和验证之间更好地重新分配了我的标签。但是，我的一个带有 2 个元素的标签完全在训练集中。这是正常的吗？

其他问题:这是进行此操作的好方法，还是您认为有更好的方法在 multi_label 中对 train_test_split 进行分层？

最佳答案

如您所见，scikit-learn's train_test_split() 的分层不单独考虑标签，而是将其视为“标签集”。这对于多标签数据根本不起作用，因为独特组合的数量随着标签数量呈指数增长。在您的示例中，有 1024 种不同的可能标签组合。您需要至少两倍才能执行双向拆分，即使如此，每次拆分也只能获得每个组合的一个示例。

禁用检查的拆分可能有些有效，因为重复标签集能够分层，但对于唯一标签集，您只是允许 scikit-learn 随机拆分它们，这没有用或无效。

Sechidis、Tsoumakas 和 Vlahavas 于 2011 年提出了一种名为 Iterative Stratification 的算法。它通过分别考虑每个标签来拆分多标签数据集，从具有最少正例的标签开始，一直到表现最好的标签。

目前有两种您可以使用的实现:

iterative-stratification

scikit-multilearn iterative_train_test_split()

假设您想要对这些 3-label (L1,L2,L3) 样本进行双向拆分:

有 8 个唯一的标签集，但每个标签有 4 个正例。迭代分层不是随机拆分，而是尝试为您提供两个拆分，其中包含来自每个标签的平衡数量的示例。示例拆分可能如下所示:

Split 1
-------
L1 L2 L3
0  0  1
0  1  0
1  0  1
1  1  0

Split 2
-------
L1 L2 L3
0  0  0
0  1  1
1  0  0
1  1  1

请注意，即使每个标签集仍然是唯一的，现在每个标签在分割之间都有一个很好的平衡。

关于python - 如何进行多标签分层抽样？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53378970/

31

4

0

文章推荐： Google-Colaboratory - 如何刷新 google-drive？

文章推荐： php - 有条件地将属性 append 到 Laravel 中的模型

文章推荐： google-cloud-platform - Google Cloud BigQuery 异常处理

文章推荐： date - 在 Groovy 中从 Unix 时间戳转换为日期

Django:分层 URL
在 Django 中如何处理分层 URL？有什么最佳做法吗？例如。如果我有一个像 /blog/category1/category2/myblogentry 这样的 URL(使用例如 django-m
java - 分层/链接图
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
r - 分层/多级饼图
有没有办法在 R 中创建这样的图表？以下是图表中显示的数据的摘录: df % group_by(Animal) %>% unite(col=Type, Animal:Name, sep =
R计算(分层)长数据集中的时间差
我一直在努力处理一些时间戳数据(直到现在才需要处理日期，并且它表明)。希望您能帮忙。我正在处理来自网站的数据，该数据显示每个客户 (ID) 各自的访问以及这些访问的时间戳。它的分组是指一个客户可能有
R计算(分层)长数据集中的时间差
我一直在努力处理一些时间戳数据(直到现在才需要处理日期，并且它表明)。希望您能帮忙。我正在处理来自网站的数据，该数据显示每个客户 (ID) 各自的访问以及这些访问的时间戳。它的分组是指一个客户可能有
MySQL 分层 IF 语句
我正在尝试完成这段代码: ORDER BY IF(j.groups IS NULL OR j.groups = '', IF(j.title IS NULL, i.title), j.groups)
iPhone View 分层
我有一个非常抽象的问题，因为我不确定如何提出它。我的其中一个 View 上有一个 UIImageView。我想让 ImageView 看起来“压入 super View ”。我不确定技术术语是什么，但
CSS 分层 Div
我希望 100% 宽的包含图像的 div 位于我的页面下方。在这些 div 之上，我想要一个 1210 像素宽的 div，我可以在其中放置我的内容。例子: http://mudchallenger.
javascript - Canvas 分层
我目前正在做一个类似于 http://www.beoplay.com/Products/BeoplayA9#under-the-hood 的元素使用 Javascript、HTML5 和 CSS3。我
android - 分层 ImageView
我想像上面那样创建图像缩略图..为此，我在下面创建了 XML activity_main.xml
java - 分层 MapReduce
我想知道是否可以定义一个分层 MapReduce 作业？。换句话说，我想要一个 map-reduce 作业，在 mapper 阶段将调用不同的 MapReduce 作业。可能吗？您对如何操作有什么建议
python - 传递类实例化(分层)
程序设计: A 类，实现较低级别的数据处理类 B-E，为 A 提供更高级别的接口(interface)以执行各种功能 F 类，它是根据用户输入与 B-E 交互的 UI 对象在任何给定时间只能有一个
sql - 分层 CTE，每级附加排序列
CTE 对我来说有点新，所以我希望有人可以帮助我编写的以下内容将采用类别表并从中构建层次结构以进行显示。我知道这种事情一直被问到，但我认为我的排序情况使它有点独特。我希望有一些使用 Hierarch
r - 如何在聚类分析(分层)中了解码信息？
我有关于的问题群在聚类分析(层次聚类)中。例如，这是的完全链式的树状图。虹膜数据集 . 我使用后 > table(cutree(hc, 3), iris$Species) 这是输出 : se
r - 分层(分类)数据到树状图
数据我有以下(简化的)数据集，我们称之为 df从现在开始: species rank value 1
delphi - 分层 Windows 的系统菜单？
Delphi 2009 中的分层窗口和系统菜单存在问题。也就是说，我们的分层窗口(没有边框)没有系统菜单。当我说系统菜单时，我指的是单击应用程序的图标、右键单击其标题栏或(在 Windows 7 中，
javascript - 分层 Canvas 元素
我正在制作一个 pototype HMTL5 Canvas 动画，该动画将导出到 Quicktime。我有一个动态生成的背景，上面有动态屏蔽的元素。我可以获取要制作的背景，并将其作为逐帧动画(pn
Java GUI 分层 Pane
好吧，我有一个打印棋盘的类和另一个打印国际象棋的类如何使用 LayeredPane 将它们合并在一起，如上面的示例图片所示？我一整天都在尝试，但似乎没有任何效果。我正在使用 JFrame 打印图片。
spring - Autowiring 分层 bean
这是我的场景。我有两个类(class) ClassA 和 ClassB。 B类继承A类。我在它们两个上使用@Component注释来使它们成为Spring bean。 @Component publ
clojure - 分层 leiningen 项目有优势吗？
这不是一道问题题，而是一道使用工具——leiningen——的题。在一个主项目下创建分层的 lein 项目是否有优势，如果有，优势是什么？如果我使用 lein new bene-cmp 创建一个项

首页

博学

6Ren·AI

商城

python - 如何进行多标签分层抽样？