gpt4 book ai didi

preprocessor - 用于预处理的良好数据集

转载 作者:行者123 更新时间:2023-11-30 08:37:33 29 4
gpt4 key购买 nike

我正在选修数据挖掘本科类(class),并且收到了编写数据挖掘预处理器的作业。我可以自由选择编程语言和数据集。我想知道是否有人可以建议一个好的数据集来使用。我一直在经历UCI Repository我还发现了更多这样的资源。但作为初学者,我不确定哪个数据集是一个不错的选择。预处理器应该处理以下内容:

  • 数据清理
    • 缺失值
    • 错误
    • 异常值
    • 标准化
    • 重复数据删除
  • 数据缩减
    • 采样技术
    • 降维

选择数据集时应该考虑哪些属性?您有什么建议的具体数据集吗?

最佳答案

你回答了你自己的问题。选择具有您提到的属性的数据集列表,因为 UCI 存储库已对数据集进行了分类。您可以选择任何人来开始玩它。

因此,首先,如果我是你,我会逐步进行,了解每个数据集的外观及其对分类器性能的影响,并选择一些流行数据集,因为它们在大多数研究论文中用作基准数据集。您列出的许多问题都是单独的机器学习问题,并且正在进行大量研究。

我会从这样的事情开始:
缺失值:虹膜、投票、心脏病
对于重复:921,810 首歌曲数据集(我认为不是来自 UCI)
标准化:具有不同特征范围的任何连续值数据集
采样技术:皮马
降维:瑞士卷

此外,查找数据集的另一种最佳方法是引用一些相应的出版物。例如,对于降维,您可以查看PCA,ISOMAP等论文,对于采样,请参见SMOTE论文等,看看他们的实验使用什么类型的数据并进行相应操作。

关于preprocessor - 用于预处理的良好数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7949445/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com