- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
考虑以下场景:我有一批数据,其特征和标签具有相似的分布。
比如说 4000000 个负面标签和 25000 个正面标签
由于它是一个高度不平衡的集合,我对负标签进行了欠采样,因此我的训练集(取自其中一个批处理)现在包含 25000 个正标签和 500000 个负标签。
现在我正在尝试测量训练后测试集的精度和召回率(从不同批处理生成)我正在使用带有 30 个估算器的 XGBoost。
现在,如果我使用全部 40000000 个负标签,我会得到(0.7 阈值时的 0.1 精度和 0.1 召回率)比使用子集(例如仅使用 500000 个负标签)更差的精度召回分数(0.4 精度,0.3 时召回率为 0.1)阈值)..
发生这种情况的潜在原因是什么?
我的一些想法:
当负面标签的数量增加这么多时,是否有其他方法可以确定为什么我的预测召回率较低且较差?
有什么方法可以比较分布吗?
我的欠采样训练是造成这种情况的原因吗?
最佳答案
要理解这一点,我们首先需要了解精确率和召回率是如何计算的。为此,我将使用以下变量:
P - 阳性总数
N - 底片总数
TP - 真阳性数量
TN - 真阴性数量
FP - 误报数量
FN - 漏报数
需要注意的是:
P = TP + FN
N = TN + FP
现在,精度为 TP/(TP + FP)
召回率是 TP/(TP + FN),因此是 TP/P。
准确度为 TP/(TP + FN) + TN/(TN + FP),因此为 (TP + TN)/(P + N)
在数据不平衡的情况下,我们有 N>>P。
现在想象一些随机模型。我们通常可以说这样的模型准确率约为 50%,但前提是数据是平衡的。在您的情况下,FP 和 TN 往往比 TP 和 FN 更多,因为随机选择的数据更有可能返回负样本。
因此我们可以确定,负样本 N/(T+N) 的百分比越多,我们得到的 FP 和 TN 就越多。也就是说,每当你的模型无法选择正确的标签时,它就会从 P 和 N 中随机选择一个标签,并且大多数情况下是 N。
还记得 FP 是精度的分母吗?这意味着精度也会随着 N/(T+N) 的增加而降低。
回想一下,我们在其推导中既没有 FP 也没有 TN,因此随着 N/(T+N) 的增加,可能不会有太大变化。从您的示例中可以看出,它显然保持不变。
因此,我会尽量使数据平衡以获得更好的结果。比例为 1:1.5 即可。您还可以使用不同的指标(例如结合了精确度和召回率的 F1 分数)来更好地了解性能。
另请检查其他一些观点 here on how to combat imbalance data
关于machine-learning - 随着测试集中负标签的增加,如何提高精确召回分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54514648/
我有一个非常基本的 MySQL 查询,它从数据库表中读取行并将行值添加或减去定义为 $total_balance 的 PHP 字符串。 例如; $statement_details_query = m
我有 following fiddle ,请注意,如果您使输出的宽度变小,图像将被覆盖并且不会出现滚动条 - 完美。 如果我attempt the same effect on the right ,
这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234 ? 56 是否限定 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起始点在哪里? impor
我需要知道两个子结构之间的内存距离 (&my_type.a - &my_tape.b.c) 结果的类型是什么?我需要将它转换为 (signed int),所以显然它是别的东西。 最佳答案 根据 C11
我遇到了一个扩展异常的异常处理程序类,如下所示: public class AppFileReaderException extends Exception { //Explicit seri
如何可视化负 RGB 值? 根据 OpenCV 文档: CV_8S - 8 位有符号整数 (-128..127) 这是否意味着 -128 表示 0 而 127 表示 255? 如果是,那我们为什么需要
我这里有一段代码给我带来了麻烦: idIndex = panoBuffer.indexOf("\"photo_id\":"); System.out.println(idIndex);
我刚刚练习 Java,对此还很陌生。我只是想创建一个随机数生成器程序来跟踪玩家的获胜、失败、获胜百分比和总获胜金额。该程序的逻辑是,玩家每次 session 有 3 次机会,计算机会生成一个随机数,玩
因此,我们被要求创建一个程序,使用户能够从 1-6 个有关矩阵运算的选项中进行选择。在每个用户的输入中,我们需要检查该输入是否适合要完成的操作(程序应该接受整数或 float ,正数或负数)。如果不满
这是我期望的输出 x |x| 1.2 1.2 -2.3 2.3 3.4 3.4 但我一直收到这个: x |x| 1
假设我有这个: $date1=date_create(date('H:I', strtotime('8:00'))); $date2=date_create(date('H:I', strtotime
如何确定负 FixNum 的无符号解释? # unexpected, true (~0b01111011).to_s(2) == ("-" + (~0b01111011).abs.to_s(2)) #
这是一个用于“邀请您的 friend 加入此群组”脚本的快速 SQL 查询。 我有 2 个表:users 和 group_members。我正在尝试执行一个查询,选择我所有的 friend ——由第一
负 ASCII 值有什么意义? int a = '«'; //a = -85 but as in ASCII table '<<' should be 174 最佳答案 没有负数ASCII值。 ASC
我知道用 PHP 可以做到这一点,但是有没有办法只用 MySQL 来做到这一点? 我有这个数据库: --------------------------------------------------
我在变量中有一个时间戳 $data = (float) -2208988800; 是否可以根据这些数据创建正确的日期?date("d.M.Y", $data) 返回“07.02.2036” 最佳答案
你好我如何将括号格式的负值转换为 double 值。目前我有这个。 Payment.Text = Calc_Payment().ToString("#,##0.00;(#,##0.00)"); 将支付
这是一个小程序。这应该打印 0 或 1,还是它有未定义的行为? #include struct S0 { unsigned f1 : 1; }; struct S0 s; int main (v
运行 lgb.cv 时,我有时会从日志中看到“从分数开始训练”后的负数。想知道这个数字到底是什么意思,单位是什么?是根据参数中指定的指标吗?以下是摘录: [LightGBM] [Info] Total
我正在使用变分自动编码器类型模型,我的损失函数的一部分是均值为 0 和方差为 1 的正态分布与另一个均值和方差由我的模型预测的正态分布之间的 KL 散度。 我用以下方式定义了损失: def kl_lo
我是一名优秀的程序员,十分优秀!