gpt4 book ai didi

scala - Spark 上的数据分析 Scala

转载 作者:行者123 更新时间:2023-12-04 17:57:00 26 4
gpt4 key购买 nike

我是 Scala 的新手,我必须使用 Scala 和 Spark 的 SQL、Mllib 和 GraphX 才能对庞大的数据集进行一些分析。我想做的分析是:

  • 客户生命周期值(value) (CLV)
  • 中心性度量(度数、特征向量、边介数、closeness)数据在CSV文件中(60GB(3年跨国数据))位于 Hadoop 集群中。

我的问题是关于访问数据和执行上述计算的最佳方法?

  • 我是否应该将 CSV 文件中的数据加载到数据框中并继续处理数据框?或
  • 我应该从 CSV 文件中加载数据并将其转换为 RDD 吗?然后在RDD上工作?或
  • 是否有任何其他方法来访问数据和执行分析?

非常感谢您的帮助..

最佳答案

Dataframe 为您提供类似 sql 的语法来处理数据,而 RDD 则提供类似 Scala 集合的数据操作方法。

Dataframes 的一个额外好处是底层 spark 系统将优化您的查询,就像 sql 查询优化一样。这在 RDD 的情况下不可用。

由于您是 Scala 的新手,强烈建议您最初使用 Dataframes API,然后根据需要选择 RDD API。

关于scala - Spark 上的数据分析 Scala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39688514/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com