gpt4 book ai didi

python - Pydoop 在大数据分析和数据科学中的重要性

转载 作者:行者123 更新时间:2023-12-02 22:09:11 25 4
gpt4 key购买 nike

我是数据科学和大数据框架的新手。
可以说,我在 CSV 中有一个 DataSet 输入。
我从谷歌和其他资源中发现了关于数据分析师和数据科学家日常工作的信息,

  • 一旦用户获得 DataSet,首先将在 python pandas 库的帮助下进行操作,其中包括数据清理和其他东西。
  • 然后用户使用 matplotlib 和其他技术可视化数据。
  • 用户可以编写机器学习算法来获得某些标准的预测。

  • 上述所有工作流程都可以概括为数据分析和预测。

    现在,另一方面,我发现了 Pydoop(Python 的 Hadoop 框架)
    进行存储、处理等操作

    我有点困惑,在上面提到的数据分析工作流程中,pydoop 到底在哪里?

    请指导我。

    最佳答案

    Pydoop 不是一个框架。文档说它是 MapReduce 框架的接口(interface)

    Pydoop is a Python interface to Hadoop that allows you to write MapReduce applications in pure Python



    通过更多研究,您会发现更多 的示例。 PySpark pydoop并且编写简单的 MapReduce 并不容易(尽管在 Python 中比在 Java 中更容易),并且对于数据科学家来说并不真正意味着

    无论如何,在提到的工作流程中,用户需要获取“数据集”。它可以存储在 Hadoop 中,并且 pydoop将能够处理它(通过 MapReduce 应用程序),但是,使用 pandas 不会很容易做到这一点。 ,因为 pandas 需要本地的所有数据来创建数据帧,而不是从远程文件系统逐行​​流式传输。
    pydoop与 PySpark 相比,它本身也不提供任何机器学习算法,因此同样不适用于工作流。

    PySpark 有一个 toPandas函数是 Hadoop 进程和用于数据科学和可视化的“独立”Pandas 应用程序之间的网关,但是 Jupyter 和 Apache Zeppelin 更常用于直接进行 Spark 可视化,而无需与 Pandas 交互。

    关于python - Pydoop 在大数据分析和数据科学中的重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51678650/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com