gpt4 book ai didi

weka - 了解 Weka 中的成本敏感评估(成本矩阵)

转载 作者:行者123 更新时间:2023-12-01 04:37:01 30 4
gpt4 key购买 nike

我正在使用 Weka 3.7.1

我正在尝试使用 weka 分析棒球运动预测。我想使用成本矩阵,因为在我赌博的体育博彩中,不同结果的成本是不一样的。我的数据集很简单:它是一组具有标称类 {WIN,LOSS} 的预测。对于这道题,属性不是问题。

在 WEKA Explorer 中,加载我的 arff 文件后,我可以从

Classify->More Options...->Cost-sensitive evaluation->Set...->There is a 2x2 grid that appears in the weka cost-sensitive evaluation after I set the classes == 2

以下是我想输入到成本矩阵中的值:

  • 正确分类为亏损,成本为0(我没有下注)
  • 错误分类为损失,成本为 0(我没有下注)
  • 正确分类为赢,成本是 -.909(我赢了 .909 美元)
  • 错误地归类为获胜,成本为 1.0(我输了一美元)

请注意,为了使其成为“成本矩阵”,我将利润设置为负值(与成本相反,它是利润);并且我将损失设置为正数(因为当我输掉赌注时我付出了代价)。

经过深思熟虑,我决定使用下面的网格,但我不知道我这样做是否正确,如果我这样做正确,请告诉我:

 - a   b       <---- "classified as"
- 0 1.0 a=LOSS
- 0 -.909 b=WIN

这可能是我的错误逻辑:(col, row)

(0,0) of grid=0: classified as LOSS, and was LOSS
(0,1) of grid=0: classified as LOSS, but was WIN
(1,0) of grid=1.0; classified as WIN, but was LOSS
(1,1) of grid=.909; classified as WIN, was WIN

当然,(0,0) 和 (0,1) 代表预测损失的分类器,在这些情况下我不下注,因此没有成本。

另一方面,(1,0) 和 (1,1) 代表预测获胜的分类器,在这些情况下我下注,因此存在相关成本。

另一项非常困惑:在我设置成本矩阵并执行分类器后,输出报告包含以下内容:

评估成本矩阵:

 0    1   
0 0.91 <--- notice that this is not a negative value!

如您所见,在报告中 (1,1) 是 0.91,而我实际输入的是 -.909。我确实找到了另一篇关于这个主题的帖子,但它没有解释为什么负值变成正值。

提前致谢。请注意,这些是可以回答的问题;但是,如果你想提供一些指导,我会很高兴,因为我是一个新手,仍在努力建立一个理解框架。

最佳答案

成本矩阵是一种改变决策边界阈值的方法。它在以下论文中进行了解释。

http://research.ijcaonline.org/volume44/number13/pxc3878677.pdf

通过查看您的成本矩阵,似乎需要进行一些修正。

例如

0    cost
cost 0

只是为了解释:考虑以下成本矩阵:

a b
c d

这是我观察到的两类问题的成本矩阵的一般格式。

现在,当您在 a 或 d 位置对某些东西进行分类时,就无需合并成本。

所以这里的重点是,成本只有在出现错误分类时才会出现。即在 b 或 c 位置。

但是由于您将负值写为 place d 的成本,因此会造成混淆。 (请允许解释相同的内容,即负成本是什么意思。)

示例成本矩阵可以是:

0  1
10 0

表示将示例分类为假阳性的成本比将类似示例错误分类为假阴性的成本高 10 倍。此外,当示例被正确分类时没有成本。

关于weka - 了解 Weka 中的成本敏感评估(成本矩阵),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24500147/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com