gpt4 book ai didi

python - Sklearn - 数据偏向于错误

转载 作者:行者123 更新时间:2023-11-30 09:00:23 24 4
gpt4 key购买 nike

我正在使用 sklearn 分类器,有各种各样的分类器,但主要集中在决策树上。我认为我有偏见问题。这是我正在处理的内容,

25k 训练记录集(总数据约为 500k 可用)实际提供的数据 95% 是假的,因为客户通常会将这些数据标记为假

25k 训练记录包括 95% 错误和 5% 正确

在训练和测试时,我的准确率在 85% 到 94% 之间,具体取决于我使用的功能。有时,即使只有两个特征也能提供 90% 的准确率,而 20 个特征(我知道很重要)的准确率会增加到 94%。我认为这是不正确的,而且我的感觉是,由于我提供的数据,存在一些错误的偏见。我是否应该在训练集中包含更多“真实”记录,也许使用 30k 条记录,添加另一组 5k 条来自实际数据的“真实”值?

最佳答案

有可能您的所有测试数据都是错误的,在这种情况下,通过始终选择错误,您可以获得 95% 的有效性。

您存在类别不平衡问题。这在许多现实世界场景中都是典型的。例如,HIV 阳性病例很少见,而 HIV 阴性、癌细胞或欺诈交易则很少见。您需要了解假阴性与真阳性的成本是多少,以便能够调整您的算法以确保精度优于有效性等。

我会做的几件事:

  1. 创建混淆矩阵 ( http://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html ),这将帮助您检查误报和真报的数量
  2. 使用交叉验证来更好地组合训练/测试群体

关于python - Sklearn - 数据偏向于错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42404689/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com