gpt4 book ai didi

google-cloud-platform - Google Data Fusion 能否进行与 DataPrep 相同的数据清理?

转载 作者:行者123 更新时间:2023-12-03 13:45:57 26 4
gpt4 key购买 nike

我想用一些数据运行机器学习模型。在用这些数据训练模型之前,我需要处理它,所以我一直在阅读一些方法来做到这一点。

  • 首先创建一个 Dataflow 管道将其上传到 Bigquery 或 Google Cloud Storage,然后使用 Google Dataprep 创建一个数据管道来清理它。
  • 我想这样做的另一种方法是使用数据融合,它可以更轻松地创建数据管道,但我不知道,这是我的疑问,数据融合只是创建像 Dataflow 这样的管道,然后我必须使用DataPrep 来清理数据,或者 Data Fusion 是否可以清理数据并准备将其放入我的机器学习模型中。

  • 如果 Data Fusion 可以将数据清理为 DataPrep,那么我应该什么时候使用 DataPrep?

    最佳答案

    Datafusion 和 Dataprep 可以执行相同的操作。但是它们的执行是不同的。

  • Datafusion 创建一个 Spark 管道并在 Dataproc 集群上运行它
  • Dataprep 创建一个 Beam 管道并在 Dataflow 上运行它

  • IMO,Datafusion 更适合从一个源到另一个源的数据摄取,几乎没有转换。
    Dataprep更多是为数据准备(顾名思义)、数据清洗、新列创建、拆分列而设计的。 Dataprep 还提供数据洞察,以帮助您制定食谱。

    此外,Beam 是 Tensorflow extended 的一部分如果您使用符合 Beam 的工具,您的数据工程师管道将更加一致

    这就是为什么我会推荐 Dataprep 而不是 Datafusion。

    关于google-cloud-platform - Google Data Fusion 能否进行与 DataPrep 相同的数据清理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58175386/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com