gpt4 book ai didi

machine-learning - 克利夫兰心脏病数据集 - 无法描述类别

转载 作者:行者123 更新时间:2023-11-30 08:48:08 25 4
gpt4 key购买 nike

我正在使用Cleveland Heart Disease dataset from UCI 用于分类,但我不明白 target 属性。

数据集描述说值从 0 到 4,但属性描述说:

0: < 50% coronary disease

1: > 50% coronary disease

我想知道如何解释这个问题,这个数据集是多类还是二元分类问题?我必须将值 1-4 分组到一个类别(存在疾病)吗?

最佳答案

如果您正在处理不平衡的数据集,则应该使用重采样技术以获得更好的结果。如果数据集不平衡,分类器总是“预测”最常见的类别,而不对特征进行任何分析。

你应该尝试 SMOTE,它基于已经存在的元素来合成少数类的元素。它的工作原理是从少数类中随机选取一个点并计算该点的 k 最近邻。

我还使用了交叉验证 K-fold 方法和 SMOTE,交叉验证可确保模型从数据中获取正确的模式。

在衡量模型的性能时,准确度指标会产生误导,尽管存在更多的误报,但它仍显示出较高的准确度。使用 F1 分数和 MCC 等指标。

引用文献:

https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets

关于machine-learning - 克利夫兰心脏病数据集 - 无法描述类别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57169297/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com