gpt4 book ai didi

hadoop - 大数据中的EDA

转载 作者:可可西里 更新时间:2023-11-01 17:00:51 28 4
gpt4 key购买 nike

  • 大数据可以做哪些所有的数据准备操作?例如:合并、汇总、转置、追加 - 所有这些都可以在 Hadoop 上完成吗?
  • 所有的数据处理都可以做些什么?我们可以对大数据进行单变量和双变量分析吗?需要多少时间?数据处理如 - 缺失值处理、异常值处理。在异常值处理中 - 使用的最重要的方法是什么 - IQR、百分比等?
  • 我们可以在大数据上做箱线图、运行序列图等吗?
  • 我们可以绘制直方图吗?
  • 我们可以在大数据上绘制自相关图、单位根图、白噪声图等吗?
  • 最佳答案

    大数据平台 (Hadoop) 与传统数据库的根本区别在于,大数据平台在读取时应用模式——而我们在传统数据库中预先定义了模式。因此,在传统数据库中,我们只能插入那些适合已知模式的数据。 Hadoop 的核心是一个称为 HDFS 的文件系统,并使用 map-reduce 算法在文件系统上进行分布式计算。通常我们不会问,我们需要什么样的准备才能将文件复制到您的计算机上。您首先复制它 - 原样 - 因为我们正在复制到 NTFS、FAT、HFSX、ZFS 等文件系统中。同样,HDFS 是一个文件系统。 Hive 之类的工具为您提供了一个到 Hadoop 的 SQL 接口(interface)。但是,在幕后,Hive 正在获取原始文件并在读取时应用模式。由于处理速度快且分布式,因此这不是问题。这就是为什么 - 我们通常不将 Hadoop 用于实时事务处理系统。

    虽然您可以执行除删除之外的大多数转换,但通常您不应该在基于 Hadoop 的系统中执行大量转换。您提供原始数据并使用 Hive 等工具或编写自己的 map-reduce 代码来访问它。它们在访问时运行。因此,您所做的预处理级别应该相对较小。

    您可以在 Hadoop 上使用多种可视化工具来绘制您正在寻找的图表类型。

    有关更多分析算法 - 请参阅 apache mahout。
    http://mahout.apache.org/users/basics/algorithms.html

    关于hadoop - 大数据中的EDA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24256376/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com