gpt4 book ai didi

r - 在 Apache Spark 中使用 R

转载 作者:行者123 更新时间:2023-12-04 12:29:48 25 4
gpt4 key购买 nike

在 Spark 中有一些访问 R 库的选项:

  • 直接使用
  • 使用语言绑定(bind),如 rscala
  • 使用独立服务,如

  • 看起来 SparkR 非常有限,OpenCPU 需要保留额外的服务,并且绑定(bind)可能存在稳定性问题。是否还有其他特定于 Spark 架构的东西使得使用任何解决方案都不容易。

    你有任何集成 R 和 Spark 的经验可以分享吗?

    最佳答案

    该项目的主要语言似乎是一个重要因素。

    如果 pyspark是为您使用 Spark 的好方法(意味着您正在从 Python 访问 Spark)通过 rpy2 访问 R与使用任何其他带有 C 扩展的 Python 库应该没有太大区别。

    有用户这样做的报告(尽管偶尔会出现诸如 How can I partition pyspark RDDs holding R functionsCan I connect an external (R) process to each pyspark worker during setup 之类的问题)

    如果 R 是你的主要语言,那么在你认为有限制的地方帮助 SparkR 作者提供反馈或贡献将是一条路要走。

    如果您的主要语言是 Scala,rscala应该是你的第一次尝试。

    而组合pyspark + rpy2似乎是最“成熟的”(如“使用最古老且可能最受尝试的代码库”),这并不一定意味着它是最好的解决方案(并且年轻的包可以快速发展)。我会首先评估项目的首选语言是什么,然后从那里尝试选择。

    关于r - 在 Apache Spark 中使用 R,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35825069/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com